Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python使用面向对象方式创建线程实现12306售票系统
Dec 24 Python
通过Python爬虫代理IP快速增加博客阅读量
Dec 14 Python
详解Python中如何写控制台进度条的整理
Mar 07 Python
pytorch 可视化feature map的示例代码
Aug 20 Python
使用Python为中秋节绘制一块美味的月饼
Sep 11 Python
Python编译为二进制so可执行文件实例
Dec 23 Python
pytorch实现用CNN和LSTM对文本进行分类方式
Jan 08 Python
pytorch1.0中torch.nn.Conv2d用法详解
Jan 10 Python
Python判断变量是否是None写法代码实例
Oct 09 Python
python 日志模块logging的使用场景及示例
Jan 04 Python
python删除csv文件的行列
Apr 06 Python
Flask使用SQLAlchemy实现持久化数据
Jul 16 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
PHP开发中的错误收集,不定期更新。
2011/02/03 PHP
简单的PHP缓存设计实现代码
2011/09/30 PHP
Yii实现多按钮保存与提交的方法
2014/12/03 PHP
php_imagick实现图片剪切、旋转、锐化、减色或增加特效的方法
2014/12/15 PHP
php 把数字转换成汉字的代码
2015/07/21 PHP
PHP截取发动短信内容的方法
2017/07/04 PHP
PHP cookie,session的使用与用户自动登录功能实现方法分析
2019/06/05 PHP
ajaxControlToolkit AutoCompleteExtender的用法
2008/10/30 Javascript
测试你的JS的掌握程度的代码
2009/12/09 Javascript
Dreamweaver jQuery智能提示插件,支持版本提示,支持1.6api
2011/07/31 Javascript
疯狂Jquery第一天(Jquery学习笔记)
2012/05/11 Javascript
Extjs Label的 fieldLabel和html属性值对齐的方法
2014/06/15 Javascript
JavaScript实现获得所有兄弟节点的方法
2015/07/23 Javascript
BootStrap实现鼠标悬停下拉列表功能
2017/02/17 Javascript
jQuery插件zTree实现清空选中第一个节点所有子节点的方法
2017/03/08 Javascript
微信小程序实现表单校验功能
2020/03/30 Javascript
javaScript实现鼠标在文字上悬浮时弹出悬浮层效果
2020/04/12 Javascript
脚手架vue-cli工程webpack的基本用法详解
2018/09/29 Javascript
用Object.prototype.toString.call(obj)检测对象类型原因分析
2018/10/11 Javascript
微信小程序背景音乐开发详解
2019/12/12 Javascript
JS typeof fn === 'function' && fn()详解
2020/08/22 Javascript
pytorch获取vgg16-feature层输出的例子
2019/08/20 Python
Python带参数的装饰器运行原理解析
2020/06/09 Python
记录模型训练时loss值的变化情况
2020/06/16 Python
python如何将图片转换素描画
2020/09/08 Python
CSS改变网页中鼠标选中文字背景颜色例子
2014/04/23 HTML / CSS
全球最大最受欢迎的旅游社区:Tripadvisor
2017/11/03 全球购物
Sephora丝芙兰印尼官方网站:购买化妆品和护肤品
2018/07/02 全球购物
购买英国原创艺术:Art Gallery
2018/08/25 全球购物
施华洛世奇波兰官网:SWAROVSKI波兰
2019/06/18 全球购物
技校教师求职简历的自我评价
2013/10/20 职场文书
计算机网络专业求职信
2014/06/05 职场文书
优秀团员事迹材料1500字
2014/08/31 职场文书
2014年人大工作总结
2014/12/10 职场文书
名人传读书笔记
2015/06/26 职场文书
大学生如何逃脱“毕业季创业队即散伙”魔咒?
2019/08/19 职场文书