python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Django框架多表查询实例分析
Jul 04 Python
python高效过滤出文件夹下指定文件名结尾的文件实例
Oct 21 Python
用Q-learning算法实现自动走迷宫机器人的方法示例
Jun 03 Python
Python3的高阶函数map,reduce,filter的示例详解
Jul 23 Python
Python在cmd上打印彩色文字实现过程详解
Aug 07 Python
python 计算方位角实例(根据两点的坐标计算)
Jan 17 Python
Python使用进程Process模块管理资源
Mar 05 Python
Python脚本导出为exe程序的方法
Mar 25 Python
tensorflow转换ckpt为savermodel模型的实现
May 25 Python
使用SQLAlchemy操作数据库表过程解析
Jun 10 Python
Python txt文件如何转换成字典
Nov 03 Python
Python中对象的比较操作==和is区别详析
Feb 12 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
修改php.ini实现Mysql导入数据库文件最大限制的修改方法
2007/12/11 PHP
ecshop实现smtp发送邮件
2015/02/03 PHP
javascript:文字不间断向左移动的实例代码
2013/08/08 Javascript
JS实现控制表格行内容垂直对齐的方法
2015/03/30 Javascript
jQuery()方法的第二个参数详解
2015/04/29 Javascript
JS本地刷新返回上一页代码
2016/07/25 Javascript
JS使用正则表达式实现关键字替换加粗功能示例
2016/08/03 Javascript
jquery插入兄弟节点的操作方法
2016/12/07 Javascript
JS声明式函数与赋值式函数实例分析
2016/12/13 Javascript
jquery插件bootstrapValidator表单验证详解
2016/12/15 Javascript
微信小程序之picker日期和时间选择器
2017/02/09 Javascript
JavaScript实现二分查找实例代码
2017/02/22 Javascript
vue双向绑定简要分析
2017/03/23 Javascript
详解vue mint-ui源码解析之loadmore组件
2017/10/11 Javascript
详解webpack4之splitchunksPlugin代码包分拆
2018/12/04 Javascript
深入理解Vue.js轻量高效的前端组件化方案
2018/12/10 Javascript
微信小程序MUI导航栏透明渐变功能示例(通过改变opacity实现)
2019/01/24 Javascript
Egg Vue SSR 服务端渲染数据请求与asyncData
2019/11/24 Javascript
python如何对实例属性进行类型检查
2018/03/20 Python
解决Python 爬虫URL中存在中文或特殊符号无法请求的问题
2018/05/11 Python
python 重命名轴索引的方法
2018/11/10 Python
详解Python连接MySQL数据库的多种方式
2019/04/16 Python
Django项目中使用JWT的实现代码
2019/11/04 Python
利用Pytorch实现简单的线性回归算法
2020/01/15 Python
python yield和Generator函数用法详解
2020/02/10 Python
Python远程linux执行命令实现
2020/11/11 Python
英国蛋糕装饰用品一站式商店:Craft Company
2019/03/18 全球购物
一道SQL面试题
2012/12/31 面试题
vue 中 get / delete 传递数组参数方法
2021/03/23 Vue.js
信息专业大学生自我评价分享
2014/01/17 职场文书
主要负责人任命书
2014/06/06 职场文书
道路施工安全责任书
2014/07/24 职场文书
2014年世界艾滋病日宣传活动总结
2014/11/18 职场文书
MySQL常见优化方案汇总
2022/01/18 MySQL
速龙x4-860k处理器相当于i几
2022/04/20 数码科技
winserver2019安装软件一直卡在应用程序正在为首次使用做准备
2022/06/10 Servers