python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的super用法详解
May 28 Python
Python一句代码实现找出所有水仙花数的方法
Nov 13 Python
解决yum对python依赖版本问题
Jul 05 Python
在django admin中添加自定义视图的例子
Jul 26 Python
Python中typing模块与类型注解的使用方法
Aug 05 Python
django框架单表操作之增删改实例分析
Dec 16 Python
Django choices下拉列表绑定实例
Mar 13 Python
解决Jupyter Notebook使用parser.parse_args出现错误问题
Apr 20 Python
matplotlib基础绘图命令之errorbar的使用
Aug 13 Python
python 实现单例模式的5种方法
Sep 23 Python
python Tkinter的简单入门教程
Apr 11 Python
Python图像处理之图像拼接
Apr 28 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP 自定义错误处理函数的使用详解
2013/05/10 PHP
php 去除html标记--strip_tags与htmlspecialchars的区别详解
2013/06/26 PHP
destoon实现调用热门关键字的方法
2014/07/15 PHP
php微信开发接入
2016/08/27 PHP
PHP静态成员变量和非静态成员变量详解
2017/02/14 PHP
PHP匿名函数(闭包函数)详解
2019/03/22 PHP
laravel5.6 框架邮件队列database驱动简单demo示例
2020/01/26 PHP
纯JS实现旋转图片3D展示效果
2015/04/12 Javascript
基于javascript实现单选及多选的向右和向左移动实例
2015/07/25 Javascript
nodejs 搭建简易服务器的图文教程(推荐)
2017/07/18 NodeJs
详解JavaScript按概率随机生成事件
2017/08/02 Javascript
详解Nodejs 通过 fs.createWriteStream 保存文件
2017/10/10 NodeJs
原生JS实现小小的音乐播放器
2017/10/16 Javascript
AngularJS标签页tab选项卡切换功能经典实例详解
2018/05/16 Javascript
实例详解BootStrap的动态模态框及静态模态框
2018/08/13 Javascript
Vue+Express实现登录注销功能的实例代码
2019/05/05 Javascript
vue自定义组件(通过Vue.use()来使用)即install的用法说明
2020/08/11 Javascript
Javascript中Math.max和Math.max.apply的区别和用法详解
2020/08/24 Javascript
[03:39]2015国际邀请赛主赛事首日精彩回顾
2015/08/05 DOTA
[02:19]2018年度DOTA2最佳核心位选手-完美盛典
2018/12/17 DOTA
总结python爬虫抓站的实用技巧
2016/08/09 Python
Python学习之用pygal画世界地图实例
2017/12/07 Python
python实现基于SVM手写数字识别功能
2020/05/27 Python
Python简单爬虫导出CSV文件的实例讲解
2018/07/06 Python
Python切片操作深入详解
2018/07/27 Python
python3实现钉钉消息推送的方法示例
2019/03/14 Python
Django模型修改及数据迁移实现解析
2019/08/01 Python
解决django model修改添加字段报错的问题
2019/11/18 Python
分享一个H5原生form表单的checkbox特效代码
2018/02/26 HTML / CSS
Html5之webcoekt播放JPEG图片流
2020/09/22 HTML / CSS
德国在线订购鲜花:Fleurop
2018/08/25 全球购物
英国领先的隐形眼镜在线供应商:Lenstore.co.uk
2019/11/24 全球购物
莫斯科珠宝厂官方网站:Miuz
2020/09/19 全球购物
指导教师评语
2014/04/26 职场文书
跳槽求职信范文
2014/05/26 职场文书
Nginx文件已经存在全局反向代理问题排查记录
2022/07/15 Servers