python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程之文件下载实例分析
May 20 Python
python 写入csv乱码问题解决方法
Oct 23 Python
python 根据正则表达式提取指定的内容实例详解
Dec 04 Python
python 类详解及简单实例
Mar 24 Python
Python版名片管理系统
Nov 30 Python
在django view中给form传入参数的例子
Jul 19 Python
Django 创建后台,配置sqlite3教程
Nov 18 Python
Python中logging日志记录到文件及自动分割的操作代码
Aug 05 Python
使用jupyter notebook运行python和R的步骤
Aug 13 Python
解决python和pycharm安装gmpy2 出现ERROR的问题
Aug 28 Python
详解如何使用Pytest进行自动化测试
Jan 14 Python
Pandas 数据编码的十种方法
Apr 20 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
经典的PHPer为什么被认为是草根?
2007/04/02 PHP
PHP缓存技术的使用说明
2011/08/06 PHP
ThinkPHP中的常用查询语言汇总
2014/08/22 PHP
Zend Framework处理Json数据方法详解
2016/12/09 PHP
PHP性能分析工具xhprof的安装使用与注意事项
2017/12/19 PHP
PHP实现一个按钮点击上传多个图片操作示例
2020/01/23 PHP
自写简单JS判断是否已经弹出页面
2010/10/20 Javascript
js控制淡入淡出示例代码
2013/11/12 Javascript
js验证整数加保留小数点的简单实例
2013/12/02 Javascript
js中document.write使用过程中的一点疑问解答
2014/03/20 Javascript
js或jquery实现页面打印可局部打印
2014/03/27 Javascript
AngularJS入门教程之AngularJS表达式
2016/04/18 Javascript
Angular实现下载安装包的功能代码分享
2017/09/05 Javascript
vue-router配合ElementUI实现导航的实例
2018/02/11 Javascript
vue-cli常用设置总结
2018/02/24 Javascript
小程序关于请求同步的总结
2019/05/05 Javascript
Node如何后台数据库使用增删改查功能
2019/11/21 Javascript
详谈vue中router-link和传统a链接的区别
2020/07/22 Javascript
详解vue父子组件状态同步的最佳方式
2020/09/10 Javascript
ant design vue中日期选择框混合时间选择器的用法说明
2020/10/27 Javascript
浅谈es6中的元编程
2020/12/01 Javascript
Python3实现的腾讯微博自动发帖小工具
2013/11/11 Python
对python3标准库httpclient的使用详解
2018/12/18 Python
Python 转换文本编码实现解析
2019/08/27 Python
Python tensorflow实现mnist手写数字识别示例【非卷积与卷积实现】
2019/12/19 Python
CSS3区域模块region相关编写示例
2015/08/28 HTML / CSS
HTML5拖拽API经典实例详解
2018/04/20 HTML / CSS
十佳班主任事迹材料
2014/01/18 职场文书
清明节扫墓活动方案
2014/03/02 职场文书
设计师求职信
2014/07/01 职场文书
出租房屋协议书
2014/09/14 职场文书
纪念九一八事变演讲稿:青少年应树立远大理想
2014/09/14 职场文书
搬迁通知
2015/04/20 职场文书
2015年党风建设工作总结
2015/04/29 职场文书
高考百日冲刺决心书
2015/09/23 职场文书
基于Python编写简易版的天天跑酷游戏的示例代码
2022/03/23 Python