python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
跟老齐学Python之字典,你还记得吗?
Sep 20 Python
简单介绍Python中的round()方法
May 15 Python
Django卸载之后重新安装的方法
Mar 15 Python
PyQt实现界面翻转切换效果
Apr 20 Python
Python 抓取微信公众号账号信息的方法
Jun 14 Python
Python_查看sqlite3表结构,查询语句的示例代码
Jul 17 Python
django中SMTP发送邮件配置详解
Jul 19 Python
Numpy对数组的操作:创建、变形(升降维等)、计算、取值、复制、分割、合并
Aug 28 Python
python3 使用openpyxl将mysql数据写入xlsx的操作
May 15 Python
Django实现前台上传并显示图片功能
May 29 Python
如何将anaconda安装配置的mmdetection环境离线拷贝到另一台电脑
Oct 15 Python
python向xls写入数据(包括合并,边框,对齐,列宽)
Feb 02 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
用PHP实现文件上传二法
2006/10/09 PHP
PHP中批量生成静态html(命令行下运行PHP)
2014/04/19 PHP
对PHP新手的一些建议(PHP学习经验总结)
2014/08/20 PHP
php打印输出棋盘的实现方法
2014/12/23 PHP
PHP自定义函数实现格式化秒的方法
2016/09/14 PHP
php版微信数据统计接口用法示例
2016/10/12 PHP
jquery中使用$(#form).submit()重写提交表单无效原因分析及解决
2013/03/25 Javascript
jQuery获取Radio,CheckBox选择的Value值(示例代码)
2013/12/12 Javascript
Ionic实现仿通讯录点击滑动及$ionicscrolldelegate使用分析
2016/01/18 Javascript
AngularJS实现根据变量改变动态加载模板的方法
2016/11/04 Javascript
大白话讲解JavaScript的Promise
2017/04/06 Javascript
React-Native左右联动List的示例代码
2017/09/21 Javascript
微信小程序如何加载数据库真实数据的实现
2020/03/04 Javascript
[02:25]专访DOTA2负责人Erik 国际邀请赛暂不会离开西雅
2014/07/21 DOTA
python实现绘制树枝简单示例
2014/07/24 Python
Python中unittest模块做UT(单元测试)使用实例
2015/06/12 Python
python 判断是否为正小数和正整数的实例
2017/07/23 Python
Python 判断是否为质数或素数的实例
2017/10/30 Python
python中plot实现即时数据动态显示方法
2018/06/22 Python
Selenium定时刷新网页的实现代码
2018/10/31 Python
使用turtle绘制五角星、分形树
2019/10/06 Python
Python的pygame安装教程详解
2020/02/10 Python
在python里创建一个任务(Task)实例
2020/04/25 Python
python将unicode和str互相转化的实现
2020/05/11 Python
python产生模拟数据faker库的使用详解
2020/11/04 Python
使用canvas压缩图片上传的方法示例
2020/02/07 HTML / CSS
英国在线花园中心:You Garden
2018/06/03 全球购物
美国NBA官方商店:NBA Store
2019/04/12 全球购物
表决心的诗句大全
2014/03/11 职场文书
职称评定自我鉴定
2014/03/18 职场文书
《神奇的克隆》教学反思
2014/04/10 职场文书
离婚协议书标准格式
2014/10/04 职场文书
法人身份证明书
2014/10/08 职场文书
上课睡觉万能检讨书
2015/02/17 职场文书
2016幼儿园新学期寄语
2015/12/03 职场文书
Python3 如何开启自带http服务
2021/05/18 Python