python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
Python中asyncore的用法实例
Sep 29 Python
解决tensorflow模型参数保存和加载的问题
Jul 26 Python
python用fsolve、leastsq对非线性方程组求解
Dec 15 Python
Python判断对象是否相等及eq函数的讲解
Feb 25 Python
Python模块、包(Package)概念与用法分析
May 31 Python
py-charm延长试用期限实例
Dec 22 Python
python GUI库图形界面开发之PyQt5表单布局控件QFormLayout详细使用方法与实例
Mar 06 Python
Jupyter Notebook的连接密码 token查询方式
Apr 21 Python
详解Django配置JWT认证方式
May 09 Python
Python爬虫代理池搭建的方法步骤
Sep 28 Python
python实现图书馆抢座(自动预约)功能的示例代码
Sep 29 Python
pytorch加载语音类自定义数据集的方法教程
Nov 10 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
Optimizer与Debugger兼容性问题的解决方法
2008/12/01 PHP
PHP CURL获取cookies模拟登录的方法
2013/11/04 PHP
php文件上传类完整实例
2016/05/14 PHP
静态html文件执行php语句的方法(推荐)
2016/11/21 PHP
PHP实现常用排序算法的方法
2020/02/05 PHP
轻量级 JS ToolTip提示效果
2010/07/20 Javascript
打豆豆小游戏 用javascript编写的[打豆豆]小游戏
2013/01/08 Javascript
JavaScript创建类/对象的几种方式概述及实例
2013/05/06 Javascript
jquery自动填充勾选框即把勾选框打上true
2014/03/24 Javascript
对比分析AngularJS中的$http.post与jQuery.post的区别
2015/02/27 Javascript
javascript页面倒计时实例
2015/07/25 Javascript
jQuery 更改checkbox的状态,无效的解决方法
2016/07/22 Javascript
关于动态生成dom绑定事件失效的原因及解决方法
2016/08/06 Javascript
js制作可以延时消失的菜单
2017/01/13 Javascript
Bootstrap 模态框(Modal)带参数传值实例
2017/08/20 Javascript
Vue加载组件、动态加载组件的几种方式
2018/08/31 Javascript
js中this的指向问题归纳总结
2018/11/28 Javascript
JavaScript变量提升和严格模式实例分析
2019/01/27 Javascript
Python深入学习之内存管理
2014/08/31 Python
Python函数嵌套实例
2014/09/23 Python
浅谈Python数据类型之间的转换
2016/06/08 Python
Python 中Pickle库的使用详解
2018/02/24 Python
Python如何发布程序的详细教程
2018/10/09 Python
Python面向对象基础入门之设置对象属性
2018/12/11 Python
pytorch 常用线性函数详解
2020/01/15 Python
美国男装连锁零售商:Men’s Wearhouse
2016/10/14 全球购物
印度首选时尚目的地:Reliance Trends
2018/01/17 全球购物
英国最大最好的无人机商店:Drones Direct
2019/07/12 全球购物
加拿大品牌鞋包连锁店:Little Burgundy
2021/02/28 全球购物
用Java语言将一个键盘输入的数字转化成中文输出
2013/01/25 面试题
赡养老人协议书
2014/04/21 职场文书
写给老师的保证书
2015/05/09 职场文书
2016年三八红旗手先进事迹材料
2016/02/26 职场文书
php远程请求CURL案例(爬虫、保存登录状态)
2021/04/01 PHP
Pytorch 如何加速Dataloader提升数据读取速度
2021/05/28 Python
MySQL解决Navicat设置默认字符串时的报错问题
2022/06/16 MySQL