python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python数组条件过滤filter函数使用示例
Jul 22 Python
python 打印出所有的对象/模块的属性(实例代码)
Sep 11 Python
详解常用查找数据结构及算法(Python实现)
Dec 09 Python
Python探索之修改Python搜索路径
Oct 25 Python
简单谈谈python中的lambda表达式
Jan 19 Python
python的staticmethod与classmethod实现实例代码
Feb 11 Python
python 定时修改数据库的示例代码
Apr 08 Python
python常用函数与用法示例
Jul 02 Python
Python pandas RFM模型应用实例详解
Nov 20 Python
python实现猜数游戏
Mar 27 Python
Python socket服务常用操作代码实例
Jun 22 Python
Python子进程subpocess原理及用法解析
Jul 16 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
星际实力自我测试
2020/03/04 星际争霸
简体中文转换为繁体中文的PHP函数
2006/10/09 PHP
MySql数据库查询结果用表格输出PHP代码示例
2015/03/20 PHP
php强制用户转向www域名的方法
2015/06/19 PHP
jquery交替变换颜色的三种方法 实例代码
2013/11/19 Javascript
js使用eval解析json(js中使用json)
2014/01/17 Javascript
jquery中的$(document).ready()使用小结
2014/02/14 Javascript
javascript实现获取cookie过期时间的变通方法
2014/08/14 Javascript
IE浏览器IFrame对象内存不释放问题解决方法
2014/08/22 Javascript
javascript中使用正则表达式清理table样式的代码
2020/04/01 Javascript
Node.js 条形码识别程序构建思路详解
2016/02/14 Javascript
Jquery ui datepicker设置日期范围,如只能隔3天【实现代码】
2016/05/04 Javascript
深入解析JavaScript中的arguments对象
2016/06/12 Javascript
JavaScript关于提高网站性能的几点建议(一)
2016/07/24 Javascript
NPM 安装cordova时警告:npm WARN deprecated minimatch@2.0.10: Please update to minimatch 3.0.2 or higher to
2016/12/20 Javascript
webpack处理 css\less\sass 样式的方法
2017/08/21 Javascript
vue.js动画中的js钩子函数的实现
2018/07/06 Javascript
JavaScript中BOM对象原理与用法分析
2019/07/09 Javascript
vue 中 elment-ui table合并上下两行相同数据单元格
2019/12/26 Javascript
javascript-hashchange事件和历史状态管理实例分析
2020/04/18 Javascript
Python实现的彩票机选器实例
2015/06/17 Python
python 打印出所有的对象/模块的属性(实例代码)
2016/09/11 Python
python下载文件记录黑名单的实现代码
2017/10/24 Python
Numpy数组转置的两种实现方法
2018/04/17 Python
python实现对文件中图片生成带标签的txt文件方法
2018/04/27 Python
TensorFlow利用saver保存和提取参数的实例
2018/07/26 Python
python使用rpc框架gRPC的方法
2018/08/24 Python
CentOS 7下安装Python3.6 及遇到的问题小结
2018/11/08 Python
python调用staf自动化框架的方法
2018/12/26 Python
Python版中国省市经纬度
2020/02/11 Python
HTML5梦幻之旅——炫丽的流星雨效果实现过程
2013/08/06 HTML / CSS
HTML5 WebSocket实现点对点聊天的示例代码
2018/01/31 HTML / CSS
幼儿园家长会欢迎词
2014/01/09 职场文书
大学运动会入场词
2014/02/22 职场文书
2014年工程部工作总结
2014/11/25 职场文书
复兴之路展览观后感
2015/06/02 职场文书