python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
深入讲解Python中面向对象编程的相关知识
May 25 Python
Android应用开发中Action bar编写的入门教程
Feb 26 Python
Python编程之黑板上排列组合,你舍得解开吗
Oct 30 Python
python中判断文件编码的chardet(实例讲解)
Dec 21 Python
Python操作MySQL数据库的三种方法总结
Jan 30 Python
Python3.6实现连接mysql或mariadb的方法分析
May 18 Python
python验证码识别教程之利用滴水算法分割图片
Jun 05 Python
python中使用psutil查看内存占用的情况
Jun 11 Python
python networkx 包绘制复杂网络关系图的实现
Jul 10 Python
Pycharm最常用的快捷键及使用技巧
Mar 05 Python
通过python调用adb命令对App进行性能测试方式
Apr 23 Python
python和php哪个容易学
Jun 19 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
ThinkPHP做文字水印时提示call an undefined function exif_imagetype()解决方法
2014/10/30 PHP
详解WordPress开发中过滤属性以及Sql语句的函数使用
2015/12/25 PHP
json跟xml的对比分析
2008/06/10 Javascript
javascript 函数使用说明
2010/04/07 Javascript
基于jQuery的淡入淡出可自动切换的幻灯插件
2010/08/24 Javascript
js中使用DOM复制(克隆)指定节点名数据到新的XML文件中的代码
2011/07/27 Javascript
JS实现统计复选框选中个数并提示确定与取消的方法
2015/07/01 Javascript
jQuery ui实现动感的圆角渐变网站导航菜单效果代码
2015/08/26 Javascript
JavaScript如何动态创建table表格
2020/08/02 Javascript
javascript电商网站抢购倒计时效果实现
2015/11/19 Javascript
详解jQuery移动页面开发中的ui-grid网格布局使用
2015/12/03 Javascript
jquery网页日历显示控件calendar3.1使用详解
2016/11/24 Javascript
微信小程序 开发之快递查询功能的实现
2017/01/09 Javascript
Javascript实现跨域后台设置拦截的方法详解
2017/08/04 Javascript
js Date()日期函数浏览器兼容问题解决方法
2017/09/12 Javascript
vuex 的简单使用
2018/03/22 Javascript
Node.js文件编码格式的转换的方法
2018/04/27 Javascript
详解nuxt sass全局变量(公共scss解决方案)
2018/06/27 Javascript
详解Vue 匿名、具名和作用域插槽的使用方法
2019/04/22 Javascript
小程序云开发如何实现图片上传及发表文字
2019/05/17 Javascript
Node快速切换版本、版本回退(降级)、版本更新(升级)
2021/01/07 Javascript
[01:06]DOTA2亚洲邀请赛专属珍藏-荧煌之礼
2017/03/24 DOTA
Python-基础-入门 简介
2014/08/09 Python
Python 中的Selenium异常处理实例代码
2018/05/03 Python
Win10 安装PyCharm2019.1.1(图文教程)
2019/09/29 Python
Python 实现平台类游戏添加跳跃功能
2020/03/27 Python
python模块如何查看
2020/06/16 Python
很酷的小工具和电子产品商城:GearBest
2016/11/19 全球购物
美国复古街头服饰精品店:Need Supply Co.
2017/02/22 全球购物
澳大利亚新奇小玩意网站:Yellow Octopus
2017/12/28 全球购物
Wiggle新西兰:自行车、跑步、游泳
2020/05/06 全球购物
某公司C#程序员面试题笔试题
2014/05/26 面试题
服务承诺书怎么写
2014/05/24 职场文书
党员活动总结
2015/02/04 职场文书
房屋维修申请报告
2015/05/18 职场文书
Mysql 文件配置解析介绍
2022/05/06 MySQL