python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
Python导出数据到Excel可读取的CSV文件的方法
May 12 Python
使用Python写个小监控
Jan 27 Python
Django的信号机制详解
May 05 Python
Python与人工神经网络:使用神经网络识别手写图像介绍
Dec 19 Python
修复CentOS7升级Python到3.6版本后yum不能正确使用的解决方法
Jan 26 Python
深入浅析Python的类
Jun 22 Python
python中文编码与json中文输出问题详解
Aug 24 Python
使用numba对Python运算加速的方法
Oct 15 Python
Python利用WMI实现ping命令的例子
Aug 14 Python
python图片二值化提高识别率代码实例
Aug 24 Python
python3.7添加dlib模块的方法
Jul 01 Python
JupyterNotebook 输出窗口的显示效果调整实现
Sep 22 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
PHP编程函数安全篇
2013/01/08 PHP
解析thinkphp中的M()与D()方法的区别
2013/06/22 PHP
php快递单号查询接口使用示例
2014/05/05 PHP
利用谷歌 Translate API制作自己的翻译脚本
2014/06/04 PHP
Symfony2安装第三方Bundles实例详解
2016/02/04 PHP
PHP引用的调用方法分析
2016/04/25 PHP
到处都是jQuery选择器的年代 不了解它们的性能,行吗
2012/06/18 Javascript
Js四则运算函数代码
2012/07/21 Javascript
JQuery触发radio或checkbox的change事件
2012/12/18 Javascript
jQuery实现3D文字特效的方法
2015/03/10 Javascript
jQuery下拉友情链接美化效果代码分享
2015/08/26 Javascript
JavaScritp添加url参数并将参数加入到url中及更改url参数的方法
2015/10/26 Javascript
Bootstrap3.0学习教程之JS折叠插件
2016/05/27 Javascript
关于Javascript中defer和async的区别总结
2016/09/20 Javascript
AngularJS extend用法详解及实例代码
2016/11/15 Javascript
Vue-resource实现ajax请求和跨域请求示例
2017/02/23 Javascript
AngularJS 防止页面闪烁的方法
2017/03/09 Javascript
Vue实现百度下拉提示搜索功能
2017/06/21 Javascript
jQuery EasyUI Layout实现tabs标签的实例
2017/09/26 jQuery
javascript数组拍平方法总结
2018/01/20 Javascript
vue多级复杂列表展开/折叠及全选/分组全选实现
2018/11/05 Javascript
layui按条件隐藏表格列的实例
2019/09/19 Javascript
实例分析javascript中的异步
2020/06/02 Javascript
Python中os和shutil模块实用方法集锦
2014/05/13 Python
python Django批量导入不重复数据
2016/03/25 Python
一步步教你用Python实现2048小游戏
2017/01/19 Python
Python实现求解一元二次方程的方法示例
2018/06/20 Python
Python协程 yield与协程greenlet简单用法示例
2019/11/22 Python
pytorch动态网络以及权重共享实例
2020/01/06 Python
python用opencv完成图像分割并进行目标物的提取
2020/05/25 Python
全球工业:Global Industrial
2020/02/01 全球购物
年会主持词结束语
2014/03/27 职场文书
知识改变命运演讲稿
2014/05/21 职场文书
小学生红领巾广播稿
2015/08/19 职场文书
创业计划书之宠物店
2019/09/19 职场文书
Pandas自定义选项option设置
2021/07/25 Python