python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
写了个监控nginx进程的Python脚本
May 10 Python
Python使用Supervisor来管理进程的方法
May 28 Python
Python的Flask框架中的Jinja2模板引擎学习教程
Jun 30 Python
win10系统中安装scrapy-1.1
Jul 03 Python
Python入门_浅谈字符串的分片与索引、字符串的方法
May 16 Python
Python3中关于cookie的创建与保存
Oct 21 Python
使用Python进行目录的对比方法
Nov 01 Python
Python玩转PDF的各种骚操作
May 06 Python
django和vue实现数据交互的方法
Aug 21 Python
Django更新models数据库结构步骤
Apr 01 Python
利用python对excel中一列的时间数据更改格式操作
Jul 14 Python
浅析Python 条件控制语句
Jul 15 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP 强制性文件下载功能的函数代码(任意文件格式)
2010/05/26 PHP
Php Ctemplate引擎开发相关内容
2012/03/03 PHP
PHP实现多进程并行操作的详解(可做守护进程)
2013/06/18 PHP
PHP解析html类库simple_html_dom的转码bug
2014/05/22 PHP
php中类和对象:静态属性、静态方法
2017/04/09 PHP
PHP等比例压缩图片的实例代码
2018/07/26 PHP
基于jQuery的固定表格头部的代码(IE6,7,8测试通过)
2010/05/18 Javascript
javascript的字符串按引用复制和传递,按值来比较介绍与应用
2012/12/28 Javascript
网站繁简切换的JS遇到页面卡死的解决方法
2014/03/12 Javascript
js选项卡的实现方法
2015/02/09 Javascript
浅谈JavaScript字符串拼接
2015/06/25 Javascript
javascript仿百度输入框提示自动下拉补全
2016/01/07 Javascript
jQuery中的基本选择器用法学习教程
2016/04/14 Javascript
仅9张思维导图帮你轻松学习Javascript 就这么简单
2016/06/01 Javascript
详解通过JSON数据使用VUE.JS
2017/05/26 Javascript
详解React Native顶|底部导航使用小技巧
2017/09/14 Javascript
Angular4实现鼠标悬停3d倾斜效果
2017/10/25 Javascript
实例讲解vue源码架构
2019/01/24 Javascript
浅析vue cli3 封装Svgicon组件正确姿势(推荐)
2020/04/27 Javascript
解决Vue + Echarts 使用markLine标线(precision精度问题)
2020/07/20 Javascript
python安装scipy的方法步骤
2019/06/26 Python
Python如何筛选序列中的元素的方法实现
2019/07/15 Python
Python3监控windows,linux系统的CPU、硬盘、内存使用率和各个端口的开启情况详细代码实例
2020/03/18 Python
css3实现可拖动的魔方3d效果
2019/05/07 HTML / CSS
html5 Canvas画图教程(10)—把面拆成线条模拟出圆角矩形
2013/01/09 HTML / CSS
美国购买新书和二手书网站:Better World Books
2018/10/31 全球购物
总监职责范文
2013/11/09 职场文书
趣味活动策划方案
2014/02/08 职场文书
《藤野先生》教学反思
2014/02/19 职场文书
机关会计岗位职责
2014/04/08 职场文书
教师产假请假条范文
2014/04/10 职场文书
刑事上诉状(无罪)
2015/05/23 职场文书
2015高中教师个人工作总结
2015/07/21 职场文书
保护环境建议书作文500字
2015/09/14 职场文书
企业管理制度设计时要注意的几种“常见病”!
2019/04/19 职场文书
MySQL update set 和 and的区别
2021/05/08 MySQL