python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python支持断点续传的多线程下载示例
Jan 16 Python
Django1.7+python 2.78+pycharm配置mysql数据库
Oct 09 Python
在Python中执行系统命令的方法示例详解
Sep 14 Python
对python中的for循环和range内置函数详解
Apr 17 Python
python numpy 一维数组转变为多维数组的实例
Jul 02 Python
使用python Telnet远程登录执行程序的方法
Jan 26 Python
python仿抖音表白神器
Apr 08 Python
简单了解Django项目应用创建过程
Jul 06 Python
keras实现VGG16方式(预测一张图片)
Jul 07 Python
Python爬虫之爬取最新更新的小说网站
May 06 Python
Python包管理工具pip的15 个使用小技巧
May 17 Python
python解析照片拍摄时间进行图片整理
Jul 23 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP用GD库生成高质量的缩略图片
2011/03/09 PHP
PHP读取ACCESS数据到MYSQL的代码
2011/05/11 PHP
destoon找回管理员密码的方法
2014/06/21 PHP
jquery 3D球状导航的文章分类
2010/07/06 Javascript
SOSO地图API使用(一)在地图上画圆实现思路与代码
2013/01/15 Javascript
javascript中2个感叹号的用法实例详解
2014/09/04 Javascript
jquery+CSS实现的水平布局多级网页菜单效果
2015/08/24 Javascript
EasyUi中的Combogrid 实现分页和动态搜索远程数据
2016/04/01 Javascript
用纯Node.JS弹出Windows系统消息提示框实例(MessageBox)
2017/05/17 Javascript
Async Validator 异步验证使用说明
2017/07/03 Javascript
使用canvas进行图像编辑的实例
2017/08/29 Javascript
JS和Canvas实现图片的预览压缩和上传功能
2018/03/30 Javascript
详解基于Node.js的HTTP/2 Server实践
2018/05/31 Javascript
基于JavaScript实现瀑布流布局
2018/08/15 Javascript
vue项目中使用fetch的实现方法
2019/04/25 Javascript
小程序封装路由文件和路由方法(5种全解析)
2019/05/26 Javascript
微信小程序实现手势滑动卡片效果
2019/08/26 Javascript
js代码编写无缝轮播图
2020/09/13 Javascript
vuex的数据渲染与修改浅析
2020/11/26 Vue.js
Vue——解决报错 Computed property "****" was assigned to but it has no setter.
2020/12/19 Vue.js
Python中super函数的用法
2017/11/17 Python
简单实现python数独游戏
2018/03/30 Python
Python设计模式之原型模式实例详解
2019/01/18 Python
详解pandas中iloc, loc和ix的区别和联系
2020/03/09 Python
对python中return与yield的区别详解
2020/03/12 Python
一文读懂Python 枚举
2020/08/25 Python
Python操作word文档插入图片和表格的实例演示
2020/10/25 Python
eVitamins日本:在线购买折扣维生素、补品和草药
2019/04/04 全球购物
Rentalcars.com中国:世界上最大的在线汽车租赁服务
2019/08/22 全球购物
如何通过jdbc调用存储过程
2012/04/19 面试题
公司门卫的岗位职责
2014/02/19 职场文书
英文感谢信格式
2015/01/21 职场文书
2015年七年级班主任工作总结
2015/05/21 职场文书
sql server 累计求和实现代码
2022/02/28 SQL Server
python中的getter与setter你了解吗
2022/03/24 Python
Elasticsearch 基本查询和组合查询
2022/04/19 Python