Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python实现的RSS阅读器实例
Jul 25 Python
Python正则替换字符串函数re.sub用法示例
Jan 19 Python
Python编程使用*解包和itertools.product()求笛卡尔积的方法
Dec 18 Python
Python发送http请求解析返回json的实例
Mar 26 Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 Python
对python读取zip压缩文件里面的csv数据实例详解
Feb 08 Python
python 梯度法求解函数极值的实例
Jul 10 Python
python区分不同数据类型的方法
Oct 14 Python
python基于socket实现的UDP及TCP通讯功能示例
Nov 01 Python
python的faker库用法
Nov 28 Python
基于python实现数组格式参数加密计算
Apr 21 Python
使用Python合成图片的实现代码(图片添加个性化文本,图片上叠加其他图片)
Apr 30 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
Windows下安装Memcached的步骤说明
2010/04/25 PHP
php使用ICQ网关发送手机短信
2013/10/30 PHP
ThinkPHP框架实现session跨域问题的解决方法
2014/07/01 PHP
PHP合并数组+号和array_merge的区别
2015/06/25 PHP
PHP中递归的实现实例详解
2017/11/14 PHP
通过源码解析Laravel的依赖注入
2018/01/22 PHP
PHP生成推广海报的方法分享
2018/04/22 PHP
PHP防止sql注入小技巧之sql预处理原理与实现方法分析
2019/12/13 PHP
Jquery Ajax学习实例5 向WebService发出请求,返回泛型集合数据的异步调用
2010/03/17 Javascript
Jquery 滑入滑出效果实现代码
2010/03/27 Javascript
读jQuery之十二 删除事件核心方法
2011/07/31 Javascript
Javascript+CSS实现影像卷帘效果思路及代码
2014/10/20 Javascript
javascript判断网页是关闭还是刷新
2015/09/12 Javascript
JS实现消息来时让网页标题闪动效果的方法
2016/04/20 Javascript
Bootstrap Table使用方法详解
2016/08/01 Javascript
利用原生js和jQuery实现单选框的勾选和取消操作的方法
2016/09/04 Javascript
Vue.js常用指令汇总(v-if、v-for等)
2016/11/03 Javascript
JS实现给对象动态添加属性的方法
2017/01/05 Javascript
Node.js websocket使用socket.io库实现实时聊天室
2017/02/20 Javascript
Vue 2.0的数据依赖实现原理代码简析
2017/07/10 Javascript
Vue-Router模式和钩子的用法
2018/02/28 Javascript
vue+vue-router转场动画的实例代码
2018/09/01 Javascript
angularJs自定义过滤器实现手机号信息隐藏的方法
2018/10/08 Javascript
vue文件运行的方法教学
2019/02/12 Javascript
微信小程序实现搜索功能并跳转搜索结果页面
2019/05/18 Javascript
加速vue组件渲染之性能优化
2020/04/09 Javascript
Python中列表和元组的相关语句和方法讲解
2015/08/20 Python
python正则表达式之作业计算器
2016/03/18 Python
CentOS7.3编译安装Python3.6.2的方法
2018/01/22 Python
Python scrapy爬取小说代码案例详解
2020/07/09 Python
新加坡航空官方网站:Singapore Airlines
2016/10/13 全球购物
幼儿园教师获奖感言
2014/03/11 职场文书
企业文明单位申报材料
2014/05/16 职场文书
党的群众路线教育实践活动对照检查剖析材料
2014/10/09 职场文书
观后感的写法
2015/06/19 职场文书
投诉书范文
2015/07/02 职场文书