python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
python+selenium实现京东自动登录及秒杀功能
Nov 18 Python
Pycharm 设置自定义背景颜色的图文教程
May 23 Python
Python3 Tkinter选择路径功能的实现方法
Jun 14 Python
python turtle 绘制太极图的实例
Dec 18 Python
Python pandas库中的isnull()详解
Dec 26 Python
Python使用正则实现计算字符串算式
Dec 29 Python
解决pytorch DataLoader num_workers出现的问题
Jan 14 Python
TensorFlow使用Graph的基本操作的实现
Apr 22 Python
Python实现转换图片背景颜色代码
Apr 30 Python
使用Python FastAPI构建Web服务的实现
Jun 08 Python
python3爬虫中多线程进行解锁操作实例
Nov 25 Python
python爬取企查查企业信息之selenium自动模拟登录企查查
Apr 08 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
漫威DC即将合作联动,而双方早已经秘密开始
2020/04/09 欧美动漫
为什么夜间收到的中波电台比白天多
2021/03/01 无线电
使用无限生命期Session的方法
2006/10/09 PHP
php接口数据加密、解密、验证签名
2015/03/12 PHP
thinkphp多表查询两表有重复相同字段的完美解决方法
2016/09/22 PHP
Laravel框架实现model层的增删改查(CURD)操作示例
2018/05/12 PHP
jquery 选择器部分整理
2009/10/28 Javascript
如何使Chrome控制台支持多行js模式——意外发现
2013/06/13 Javascript
IE下写xml文件的两种方式(fso/saveAs)
2013/08/05 Javascript
网页中可关闭的漂浮窗口实现可自行调节
2013/08/20 Javascript
JS过滤url参数特殊字符的实现方法
2013/12/24 Javascript
调用jQuery滑出效果时闪烁的解决方法
2014/03/27 Javascript
jQuery中对未来的元素绑定事件用bind、live or on
2014/04/17 Javascript
浅析基于WEB前端页面的页面内容搜索的实现思路
2014/06/10 Javascript
浅谈JavaScript前端开发的MVC结构与MVVM结构
2016/06/03 Javascript
js实现加载更多功能实例
2016/10/27 Javascript
JS获取填报扩展单元格控件的值的解决办法
2017/07/14 Javascript
webpack学习笔记之代码分割和按需加载的实例详解
2017/07/20 Javascript
Node批量爬取头条视频并保存方法
2018/09/20 Javascript
vue实现文字横向无缝走马灯组件效果的实例代码
2019/04/09 Javascript
JavaScript常用进制转换及位运算实例解析
2020/10/14 Javascript
详解 javascript对象创建模式
2020/10/30 Javascript
pyqt4教程之widget使用示例分享
2014/03/07 Python
python 删除非空文件夹的实例
2018/04/26 Python
解决python 3 urllib 没有 urlencode 属性的问题
2019/08/22 Python
python实现复制大量文件功能
2019/08/31 Python
TensorFlow实现指数衰减学习率的方法
2020/02/05 Python
sklearn中的交叉验证的实现(Cross-Validation)
2021/02/22 Python
html5模拟平抛运动(模拟小球平抛运动过程)
2013/07/25 HTML / CSS
连卡佛中国官网:Lane Crawford中文站
2018/01/27 全球购物
新大陆软件面试题
2016/11/24 面试题
3D空间设计学生找工作的自我评价
2013/10/28 职场文书
小学运动会报道稿
2015/07/22 职场文书
聘用合同范本
2015/09/21 职场文书
javascript canvas实现雨滴效果
2021/06/09 Javascript
Python OpenCV实现图像模板匹配详解
2022/04/07 Python