python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python不规范的日期字符串处理类
Jun 10 Python
在Python中使用__slots__方法的详细教程
Apr 28 Python
python写入中英文字符串到文件的方法
May 06 Python
python 截取 取出一部分的字符串方法
Mar 01 Python
Python格式化日期时间操作示例
Jun 28 Python
python numpy 显示图像阵列的实例
Jul 02 Python
Django项目开发中cookies和session的常用操作分析
Jul 03 Python
python3转换code128条形码的方法
Apr 17 Python
Python decorator拦截器代码实例解析
Apr 04 Python
如何在Python中创建二叉树
Mar 30 Python
Python操作CSV格式文件的方法大全
Jul 15 Python
Python正则表达式中flags参数的实例详解
Apr 01 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
Apache2 httpd.conf 中文版
2006/12/06 PHP
php socket实现的聊天室代码分享
2014/08/16 PHP
php获取当月最后一天函数分享
2015/02/02 PHP
PHP6新特性分析
2016/03/03 PHP
PHP的Yii框架中View视图的使用进阶
2016/03/29 PHP
jQuery EasyUI API 中文文档 - Parser 解析器
2011/09/29 Javascript
jquery 提示信息显示后自动消失的具体实现
2013/12/18 Javascript
JavaScript调试工具汇总
2014/12/23 Javascript
浅谈$(document)和$(window)的区别
2015/07/15 Javascript
基于bootstrap插件实现autocomplete自动完成表单
2016/05/07 Javascript
解析JavaScript中的字符串类型与字符编码支持
2016/06/24 Javascript
js获取指定字符前/后的字符串简单实例
2016/10/27 Javascript
JS ES6多行字符串与连接字符串的表示方法
2017/04/26 Javascript
bootstrap table实现双击可编辑、添加、删除行功能
2017/09/27 Javascript
Vue路由切换时的左滑和右滑效果示例
2018/05/29 Javascript
详解基于Vue的支持数据双向绑定的select组件
2019/09/02 Javascript
Vue通过Blob对象实现导出Excel功能示例代码
2020/07/31 Javascript
[01:11:15]VGJ.S vs Secret 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
Python实现将n个点均匀地分布在球面上的方法
2015/03/12 Python
Python实现简单拆分PDF文件的方法
2015/07/30 Python
Python中Django发送带图片和附件的邮件
2017/03/31 Python
对python读取zip压缩文件里面的csv数据实例详解
2019/02/08 Python
python实现简单图片物体标注工具
2019/03/18 Python
Python操作redis实例小结【String、Hash、List、Set等】
2019/05/16 Python
Django外键(ForeignKey)操作以及related_name的作用详解
2019/07/29 Python
python 实现一个反向单位矩阵示例
2019/11/29 Python
解决Numpy中sum函数求和结果维度的问题
2019/12/06 Python
自定义实现 PyQt5 下拉复选框 ComboCheckBox的完整代码
2020/03/30 Python
Jupyter加载文件的实现方法
2020/04/14 Python
美体小铺瑞典官方网站:The Body Shop瑞典
2018/01/27 全球购物
YII2 全局异常处理深入讲解
2021/03/24 PHP
销售类个人求职信范文
2013/09/25 职场文书
求职信格式范本
2013/11/15 职场文书
工会趣味活动方案
2014/08/18 职场文书
2014年客房服务员工作总结
2014/11/18 职场文书
mysql序号rownum行号实现方式
2022/12/24 MySQL