python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
wxpython 学习笔记 第一天
Feb 09 Python
python中pandas.DataFrame的简单操作方法(创建、索引、增添与删除)
Mar 12 Python
Python matplotlib 画图窗口显示到gui或者控制台的实例
May 24 Python
python+splinter自动刷新抢票功能
Sep 25 Python
python Selenium实现付费音乐批量下载的实现方法
Jan 24 Python
python psutil模块使用方法解析
Aug 01 Python
tensorflow使用指定gpu的方法
Feb 04 Python
Python网络爬虫信息提取mooc代码实例
Mar 06 Python
python3让print输出不换行的方法
Aug 24 Python
python用tkinter实现一个gui的翻译工具
Oct 26 Python
python使用dlib进行人脸检测和关键点的示例
Dec 05 Python
教你如何使用Python实现二叉树结构及三种遍历
Jun 18 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP中的超全局变量
2006/10/09 PHP
2个比较经典的PHP加密解密函数分享
2014/07/01 PHP
ucenter中词语过滤原理分析
2016/07/13 PHP
PHP实现求解最长公共子串问题的方法
2017/11/17 PHP
php求斐波那契数的两种实现方式【递归与递推】
2019/09/09 PHP
我遇到的参数传递中 双引号单引号嵌套问题
2010/02/11 Javascript
JavaScript版DateAdd和DateDiff函数代码
2012/03/01 Javascript
使用jquery中height()方法获取各种高度大全
2014/04/02 Javascript
Javascript冒泡排序算法详解
2014/12/03 Javascript
js插件dropload上拉下滑加载数据实例解析
2016/07/27 Javascript
用自定义图片代替原生checkbox实现全选,删除以及提交的方法
2016/10/18 Javascript
jQuery EasyUi 验证功能实例解析
2017/01/06 Javascript
ES6正则表达式的一些新功能总结
2017/05/09 Javascript
解决js ajax同步请求造成浏览器假死的问题
2018/01/18 Javascript
Vuejs 2.0 子组件访问/调用父组件的方法(示例代码)
2018/02/08 Javascript
Node.js操作系统OS模块用法分析
2019/01/04 Javascript
微信小程序生成分享海报方法(附带二维码生成)
2019/03/29 Javascript
jQuery HTML css()方法与css类实例详解
2020/05/20 jQuery
vue路由分文件拆分管理详解
2020/08/13 Javascript
vue 项目@change多个参数传值多个事件的操作
2021/01/29 Vue.js
在Python中使用M2Crypto模块实现AES加密的教程
2015/04/08 Python
Python中的Numeric包和Numarray包使用教程
2015/04/13 Python
python 查找字符串是否存在实例详解
2017/01/20 Python
python 抓包保存为pcap文件并解析的实例
2019/07/23 Python
基于plt.title无法显示中文的快速解决
2020/05/16 Python
css3新增颜色表示方式分享
2014/04/15 HTML / CSS
日本食品网上商店:JaponShop.com
2017/11/28 全球购物
欧舒丹美国官网:L’Occitane美国
2018/02/23 全球购物
研发工程师的岗位职责
2013/11/18 职场文书
元旦活动感言
2014/03/08 职场文书
学校安全工作汇报材料
2014/08/16 职场文书
办理房产证委托书
2014/09/18 职场文书
行风评议整改报告
2014/11/06 职场文书
element多个表单校验的实现
2021/05/27 Javascript
CSS实现五种常用的2D转换
2021/12/06 HTML / CSS
Python docx库删除复制paragraph及行高设置图片插入示例
2022/07/23 Python