python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
纯Python开发的nosql数据库CodernityDB介绍和使用实例
Oct 23 Python
在Python的Flask框架中实现全文搜索功能
Apr 20 Python
Python中列表元素转为数字的方法分析
Jun 14 Python
Python基础教程之利用期物处理并发
Mar 29 Python
pytorch + visdom 处理简单分类问题的示例
Jun 04 Python
使用python实现抓取腾讯视频所有电影的爬虫
Apr 15 Python
opencv转换颜色空间更改图片背景
Aug 20 Python
Python 3.6打包成EXE可执行程序的实现
Oct 18 Python
Python多线程及其基本使用方法实例分析
Oct 29 Python
Django {{ MEDIA_URL }}无法显示图片的解决方式
Apr 07 Python
PyQT5 实现快捷键复制表格数据的方法示例
Jun 19 Python
详解torch.Tensor的4种乘法
Sep 03 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
十天学会php(1)
2006/10/09 PHP
PHP zip扩展Linux下安装过程分享
2014/05/05 PHP
TP5框架实现一次选择多张图片并预览的方法示例
2020/04/04 PHP
Jquery实现的tab效果可以指定默认显示第几页
2013/10/16 Javascript
Javascript中string转date示例代码
2013/11/01 Javascript
Javascript事件实例详解
2013/11/06 Javascript
再谈Jquery Ajax方法传递到action(补充)
2014/05/12 Javascript
javascript实现点击提交按钮后显示loading的方法
2015/07/03 Javascript
JS模拟酷狗音乐播放器收缩折叠关闭效果代码
2015/10/29 Javascript
jQuery包裹节点用法完整示例
2016/09/13 Javascript
Javascript快速实现浏览器系统通知
2017/08/26 Javascript
深入了解JavaScript 私有化
2019/05/30 Javascript
JS实现简单日历特效
2020/01/03 Javascript
JS继承定义与使用方法简单示例
2020/02/19 Javascript
[01:32]TI奖金增速竟因它再创新高!DOTA2勇士令状不朽珍藏Ⅰ饰品欣赏
2018/05/18 DOTA
Python 时间操作例子和时间格式化参数小结
2014/04/24 Python
python列表操作实例
2015/01/14 Python
利用Python暴力破解zip文件口令的方法详解
2017/12/21 Python
Python使用pyh生成HTML文档的方法示例
2018/03/10 Python
Python读写及备份oracle数据库操作示例
2018/05/17 Python
Python对Tornado请求与响应的数据处理
2020/02/12 Python
Django 设置admin后台表和App(应用)为中文名的操作方法
2020/05/10 Python
Python 测试框架unittest和pytest的优劣
2020/09/26 Python
荟萃全球保健品:维他购
2018/05/09 全球购物
蔻驰英国官网:COACH英国
2020/07/19 全球购物
《纸船和风筝》教学反思
2014/02/15 职场文书
公司委托书范本
2014/04/04 职场文书
大专学生求职自荐信
2014/07/06 职场文书
建筑学专业自荐书
2014/07/09 职场文书
运动会800米赞词
2015/07/22 职场文书
创业计划书之面包店
2019/09/17 职场文书
详解CocosCreator消息分发机制
2021/04/16 Javascript
完美解决golang go get私有仓库的问题
2021/05/05 Golang
Requests什么的通通爬不了的Python超强反爬虫方案!
2021/05/20 Python
Win11 S Mode版本泄露 正式上线后叫做Windows 11 SE
2021/11/21 数码科技
vue使用refs获取嵌套组件中的值过程
2022/03/31 Vue.js