python处理json数据文件


Posted in Python onApril 11, 2022

一,前言

我们现在拿到了一个十分庞大的数据集。是json文件,里面存储了将近十万个数据,现在要对其中的数据进行清洗处理。

python处理json数据文件

二,python模块

import json
import jieba

我们需要用json模块来处理json文件,和使用jieba库来分析词性,这样可以实现我们的需求。

2.1,增加停用词表

停用词表.txt,把停用词表存入stopwords,原因是:我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示:

python处理json数据文件

a+str(b)+c这是文件名称,a+b+c=./json/poet.song.0.json b递增,实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据,我现在尽力的优化代码,现在提取一次,把需要的数据存入文件里面差不多需要五分钟。

2.2,顺序读取

  • 定义一个空的字符串,将json对象转换为python对象。定义一个空的list存放诗句。
  • 循环json_data i为里面的每一个元素。
  • 新的追加到list_paragraphs列表
  • 循环 j为里面的每一句。

代码如图所示:

python处理json数据文件

使用jieba库,分析str内容的词性【注意是名称,动词。。。。】排行输出都是俩个字是巧合,没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表,遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3,lambda函数

使用lambda函数,sort快速排序,遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".format(word, count))

三,运行

python处理json数据文件

3.1,存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

python处理json数据文件

Python 相关文章推荐
python类定义的讲解
Nov 01 Python
Python3.6正式版新特性预览
Dec 15 Python
Python中shape计算矩阵的方法示例
Apr 21 Python
基于Python3 逗号代码 和 字符图网格(详谈)
Jun 22 Python
Python之web模板应用
Dec 26 Python
利用Python如何实现一个小说网站雏形
Nov 23 Python
python绘制多个子图的实例
Jul 07 Python
解决Pytorch 训练与测试时爆显存(out of memory)的问题
Aug 20 Python
Python 绘制可视化折线图
Jul 22 Python
Python tkinter界面实现历史天气查询的示例代码
Aug 23 Python
python如何控制进程或者线程的个数
Oct 16 Python
详细介绍python操作RabbitMq
Apr 12 Python
Python几种酷炫的进度条的方式
Python通过loop.run_in_executor执行同步代码 同步变为异步
Python Pandas解析读写 CSV 文件
宝塔更新Python及Flask项目的部署
python模板入门教程之flask Jinja
使用Python解决图表与画布的间距问题
Python的property属性详细讲解
Apr 11 #Python
You might like
怎样在PHP中通过ADO调用Asscess数据库和COM程序
2006/10/09 PHP
PHP isset()与empty()的使用区别详解
2010/08/29 PHP
Yii查询生成器(Query Builder)用法实例教程
2014/09/04 PHP
PHP版本的选择5.2.17 5.3.27 5.3.28 5.4 5.5兼容性问题分析
2016/04/04 PHP
根据key删除数组中指定的元素实现方法
2017/03/02 PHP
PHP7创建销毁session的实例方法
2020/02/03 PHP
JQuery UI皮肤定制
2009/07/27 Javascript
JS验证身份证有效性示例
2013/10/11 Javascript
Bootstrap每天必学之栅格系统(布局)
2015/11/25 Javascript
AngularJS监听路由的变化示例代码
2016/09/23 Javascript
Angular ng-repeat指令实例以及扩展部分
2016/12/26 Javascript
Vue中在新窗口打开页面及Vue-router的使用
2018/06/13 Javascript
vue-router之nuxt动态路由设置的两种方法小结
2018/09/26 Javascript
详解Vue iview IE浏览器不兼容报错(Iview Bable polyfill)
2019/01/07 Javascript
JavaScript实现汉字转换为拼音及缩写的方法示例
2019/03/28 Javascript
webpack4 SplitChunks实现代码分隔详解
2019/05/23 Javascript
零基础学Python(一)Python环境安装
2014/08/20 Python
利用Python绘制MySQL数据图实现数据可视化
2015/03/30 Python
Python实现二分查找算法实例
2015/05/26 Python
python下setuptools的安装详解及No module named setuptools的解决方法
2017/07/06 Python
设置python3为默认python的方法
2018/10/31 Python
python getpass模块用法及实例详解
2019/10/07 Python
使用OpenCV circle函数图像上画圆的示例代码
2019/12/27 Python
Pycharm内置终端及远程SSH工具的使用教程图文详解
2020/03/19 Python
教你使用Sublime text3搭建Python开发环境及常用插件安装另分享Sublime text3最新激活注册码
2020/11/12 Python
python接口自动化框架实战
2020/12/23 Python
详解基于Facecognition+Opencv快速搭建人脸识别及跟踪应用
2021/01/21 Python
CSS3转换功能transform主要属性值分析及实现分享
2012/05/06 HTML / CSS
俄罗斯金苹果网上化妆品和香水商店:Goldapple
2019/12/01 全球购物
视光学专业毕业生推荐信
2013/10/28 职场文书
实习自我鉴定
2013/12/15 职场文书
数控专业大学毕业生职业规划范文
2014/02/06 职场文书
《雷鸣电闪波尔卡》教学反思
2014/02/23 职场文书
党员公开承诺践诺书
2014/03/25 职场文书
初中英语教师个人工作总结
2015/02/09 职场文书
vue自定义右键菜单之全局实现
2022/04/09 Vue.js