python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
简单的抓取淘宝图片的Python爬虫
Dec 25 Python
wxPython定时器wx.Timer简单应用实例
Jun 03 Python
Pycharm学习教程(3) 代码运行调试
May 03 Python
python交互式图形编程实例(一)
Nov 17 Python
在NumPy中创建空数组/矩阵的方法
Jun 15 Python
Python中实现单例模式的n种方式和原理
Nov 14 Python
Python中使用遍历在列表中添加字典遇到的坑
Feb 27 Python
通过Turtle库在Python中绘制一个鼠年福鼠
Feb 03 Python
Python猴子补丁Monkey Patch用法实例解析
Mar 23 Python
Python面向对象程序设计之私有变量,私有方法原理与用法分析
Mar 23 Python
python中wx模块的具体使用方法
May 15 Python
Python tkinter实现日期选择器
Feb 22 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
PHP 图片文件上传实现代码
2010/12/29 PHP
PHP大批量数据操作时临时调整内存与执行时间的方法
2011/04/20 PHP
php如何实现只替换一次或N次
2015/10/29 PHP
PhpStorm本地断点调试的方法步骤
2018/05/21 PHP
PHP获取真实IP及IP模拟方法解析
2020/11/24 PHP
直接生成打开窗口代码,不必下载
2008/05/14 Javascript
javascript两段代码,两个小技巧
2010/02/04 Javascript
40款非常棒的jQuery 插件和制作教程(系列二)
2011/11/02 Javascript
Javascript生成json的函数代码(可以用php的json_decode解码)
2012/06/11 Javascript
javascipt基础内容--需要注意的细节
2013/04/10 Javascript
jquery使用淘宝接口跨域查询手机号码归属地实例
2013/11/28 Javascript
jquery实现表格本地排序的方法
2015/03/11 Javascript
详解vue+vueRouter+webpack的简单实例
2017/06/17 Javascript
老生常谈js数据类型
2017/08/03 Javascript
echart简介_动力节点Java学院整理
2017/08/11 Javascript
解决eclipse中没有js代码提示的问题
2018/10/10 Javascript
JS获取当前时间的实例代码(昨天、今天、明天)
2018/11/13 Javascript
Angular2使用SVG自定义图表(条形图、折线图)组件示例
2019/05/10 Javascript
Python读写Excel文件的实例
2013/11/01 Python
Django Python 获取请求头信息Content-Range的方法
2019/08/06 Python
python多线程同步实例教程
2019/08/11 Python
python实现最大优先队列
2019/08/29 Python
解决Python 异常TypeError: cannot concatenate 'str' and 'int' objects
2020/04/08 Python
Python 随机生成测试数据的模块:faker基本使用方法详解
2020/04/09 Python
在keras里面实现计算f1-score的代码
2020/06/15 Python
解析Python 偏函数用法全方位实现
2020/06/26 Python
Mistine官方海外旗舰店:泰国国民彩妆品牌
2016/12/28 全球购物
受希腊女神灵感的晚礼服、鸡尾酒礼服和婚纱:THEIA
2018/04/15 全球购物
编写函数,将一个3*3矩阵转置
2013/10/09 面试题
班长演讲稿范文
2014/04/24 职场文书
2014政府领导班子对照检查材料思想汇报(3篇)
2014/09/26 职场文书
高校教师个人总结
2015/02/10 职场文书
实习生个人总结范文
2015/02/28 职场文书
如何利用map实现Nginx允许多个域名跨域
2021/03/31 Servers
如何开启Apache,Nginx和IIS服务器的GZIP压缩功能
2022/04/29 Servers
SQL Server删除表中的重复数据
2022/05/25 SQL Server