python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python编程实现语音控制电脑
Apr 01 Python
用python删除java文件头上版权信息的方法
Jul 31 Python
Python实现读取目录所有文件的文件名并保存到txt文件代码
Nov 22 Python
在Python的循环体中使用else语句的方法
Mar 30 Python
Python 使用 Pillow 模块给图片添加文字水印的方法
Aug 30 Python
python paramiko远程服务器终端操作过程解析
Dec 14 Python
pytorch 数据处理:定义自己的数据集合实例
Dec 31 Python
Pytorch释放显存占用方式
Jan 13 Python
Python实现手绘图效果实例分享
Jul 22 Python
如何用Python 加密文件
Sep 10 Python
python爬虫利器之requests库的用法(超全面的爬取网页案例)
Dec 17 Python
详细总结Python常见的安全问题
May 21 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
php disk_free_space 返回目录可用空间
2010/05/10 PHP
PHP超级全局变量数组小结
2012/10/04 PHP
PHP实现显示照片exif信息的方法
2014/07/11 PHP
Yii中使用PHPExcel导出Excel的方法
2014/12/26 PHP
JavaScript基础语法让人疑惑的地方小结
2012/05/23 Javascript
jquery ajax post提交数据乱码
2013/11/05 Javascript
js实现文本框支持加减运算的方法
2015/08/19 Javascript
javascript编程异常处理实例小结
2015/11/30 Javascript
js运动应用实例解析
2015/12/28 Javascript
JavaScript实现时间倒计时跳转(推荐)
2016/06/28 Javascript
js实现文字截断功能
2016/09/14 Javascript
详解Javascript中的原型OOP
2016/10/12 Javascript
JavaScript字符串对象
2017/01/14 Javascript
浅析vue component 组件使用
2017/03/06 Javascript
Nodejs之http的表单提交
2017/07/07 NodeJs
JS HTML图片显示Canvas 压缩功能
2017/07/21 Javascript
js实现动态改变radio状态的方法
2018/02/28 Javascript
babel7.x和webpack4.x配置vue项目的方法步骤
2019/05/12 Javascript
[06:42]DOTA2每周TOP10 精彩击杀集锦vol.1
2014/06/25 DOTA
Python2.x和3.x下maketrans与translate函数使用上的不同
2015/04/13 Python
Python的MongoDB模块PyMongo操作方法集锦
2016/01/05 Python
TensorFlow的权值更新方法
2018/06/14 Python
python开发准备工作之配置虚拟环境(非常重要)
2019/02/11 Python
python matplotlib库绘制散点图例题解析
2019/08/10 Python
Python matplotlib画图时图例说明(legend)放到图像外侧详解
2020/05/16 Python
Matplotlib 绘制饼图解决文字重叠的方法
2020/07/24 Python
python palywright库基本使用
2021/01/21 Python
德国EGOIST网店:销售畅销的设计师品牌
2017/04/18 全球购物
Airbnb爱彼迎官网:成为爱彼迎房东,赚取收入
2019/03/14 全球购物
党员对十八届四中全会的期盼思想汇报范文
2014/10/17 职场文书
2014年组织部工作总结
2014/11/14 职场文书
2014年除四害工作总结
2014/12/06 职场文书
如何制定一份可行的计划!
2019/06/21 职场文书
windows安装 redis 6.2.6最新步骤详解
2022/04/26 Redis
springboot为异步任务规划自定义线程池的实现
2022/06/14 Java/Android
如何让你的Nginx支持分布式追踪详解
2022/07/07 Servers