python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
python django集成cas验证系统
Jul 14 Python
window下eclipse安装python插件教程
Apr 24 Python
python3.6的venv模块使用详解
Aug 01 Python
如何使用Python实现自动化水军评论
Jun 26 Python
python之mock模块基本使用方法详解
Jun 27 Python
使用python切片实现二维数组复制示例
Nov 26 Python
python计算导数并绘图的实例
Feb 29 Python
Python无损压缩图片的示例代码
Aug 06 Python
零基础学python应该从哪里入手
Aug 11 Python
python 贪心算法的实现
Sep 18 Python
Python 内存管理机制全面分析
Jan 16 Python
如何利用Python实现一个论文降重工具
Jul 09 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
简单的php 验证图片生成函数
2009/05/21 PHP
window.location.href中url中数据量太大时的解决方法
2013/12/23 Javascript
jQuery中Dom的基本操作小结
2014/01/23 Javascript
jsPDF导出pdf示例
2014/05/02 Javascript
用js一次改变多个input的readonly属性值的方法
2014/06/11 Javascript
JQuery实现动态适时改变字体颜色的方法
2015/03/10 Javascript
深入理解JavaScript编程中的同步与异步机制
2015/06/24 Javascript
JavaScript实现cookie的写入、读取、删除功能
2015/11/05 Javascript
轻松学习Javascript闭包函数
2015/12/15 Javascript
jQuery中show与hide方法用法示例
2016/09/16 Javascript
Bootstrap基本组件学习笔记之input输入框组(9)
2016/12/07 Javascript
jquery二级目录选中当前页的css样式
2016/12/08 Javascript
小程序开发实战:实现九宫格界面的导航的代码实现
2017/01/19 Javascript
js实现贪吃蛇小游戏(容易理解)
2017/01/22 Javascript
Web制作验证码功能实例代码
2017/06/19 Javascript
react-native fetch的具体使用方法
2017/11/01 Javascript
vue路由组件按需加载的几种方法小结
2018/07/12 Javascript
微信小程序如何使用globalData的方法
2019/06/06 Javascript
详解JavaScript 异步编程
2020/07/13 Javascript
js实现鼠标滑动到某个div禁止滚动
2020/09/17 Javascript
[37:37]DAC2018 4.4 淘汰赛 Optic vs Mineski 第二场
2018/04/05 DOTA
浅谈Python中的数据类型
2015/05/05 Python
分享Python字符串关键点
2015/12/13 Python
win10下tensorflow和matplotlib安装教程
2018/09/19 Python
使用Template格式化Python字符串的方法
2019/01/22 Python
pyQt5实时刷新界面的示例
2019/06/25 Python
Pyqt QImage 与 np array 转换方法
2019/06/27 Python
Python 随机生成测试数据的模块:faker基本使用方法详解
2020/04/09 Python
OpenCV读取与写入图片的实现
2020/10/13 Python
凌阳科技股份有限公司C++程序员面试题笔试题
2014/11/20 面试题
大学生创业感言
2014/01/25 职场文书
《油菜花开了》教学反思
2014/02/22 职场文书
办公室岗位职责
2015/02/04 职场文书
结婚司仪主持词
2015/06/29 职场文书
毕业欢送会致辞
2015/07/29 职场文书
HTTP中的Content-type详解
2022/01/18 HTML / CSS