Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python标准库os.path包、glob包使用实例
Nov 25 Python
用Django实现一个可运行的区块链应用
Mar 08 Python
Python爬虫获取图片并下载保存至本地的实例
Jun 01 Python
使用Python和Prometheus跟踪天气的使用方法
May 06 Python
python如何制作英文字典
Jun 25 Python
python super用法及原理详解
Jan 20 Python
细数nn.BCELoss与nn.CrossEntropyLoss的区别
Feb 29 Python
Python Json数据文件操作原理解析
May 09 Python
windows支持哪个版本的python
Jul 03 Python
Python 的 f-string 可以连接字符串与数字的原因解析
Feb 20 Python
基于python实现银行管理系统
Apr 20 Python
Python可变与不可变数据和深拷贝与浅拷贝
Apr 06 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
用php制作简单分页(从数据库读取记录)的方法详解
2013/05/04 PHP
php获取字段名示例分享
2014/03/03 PHP
Yii2使用swiftmailer发送邮件的方法
2016/05/03 PHP
PHP实现搜索时记住状态的方法示例
2018/05/11 PHP
JavaScript下申明对象的几种方法小结
2008/10/02 Javascript
jquery 选项卡效果 新手代码
2011/07/08 Javascript
js实现的仿新浪微博完美的时间组件升级版
2011/12/20 Javascript
Js与下拉列表处理问题解决
2014/02/13 Javascript
jQuery实现页面滚动时动态加载内容的方法
2015/03/20 Javascript
js简单实现点击左右运动的方法
2015/04/10 Javascript
JavaScript中标识符提升问题
2015/06/11 Javascript
详解JS面向对象编程
2016/01/24 Javascript
bootstrap常用组件之头部导航实现代码
2017/04/20 Javascript
node+vue实现用户注册和头像上传的实例代码
2017/07/20 Javascript
Vue.js项目模板搭建图文教程
2017/09/20 Javascript
Bootstrap Fileinput 4.4.7文件上传实例详解
2018/07/25 Javascript
Vue开发实现吸顶效果的示例代码
2018/08/21 Javascript
Vue和React组件之间的传值方式详解
2019/01/31 Javascript
layui表格 列自动适应大小失效的解决方法
2019/09/06 Javascript
JavaScript实现复选框全选和取消全选
2020/11/20 Javascript
python读取浮点数和读取文本文件示例
2014/05/06 Python
python中引用与复制用法实例分析
2015/06/04 Python
Python的消息队列包SnakeMQ使用初探
2016/06/29 Python
python3.7.0的安装步骤
2018/08/27 Python
Python提取支付宝和微信支付二维码的示例代码
2019/02/15 Python
Python实现字典按key或者value进行排序操作示例【sorted】
2019/05/03 Python
python实现XML解析的方法解析
2019/11/16 Python
python从Oracle读取数据生成图表
2020/10/14 Python
英国领先的游戏零售商:GAME
2019/09/24 全球购物
马德里运动鞋商店:Nigra Mercato
2020/02/16 全球购物
工程总经理工作职责
2013/12/09 职场文书
计划生育工作汇报
2014/10/28 职场文书
银行自荐信怎么写
2015/03/05 职场文书
趣味运动会加油词
2015/07/18 职场文书
采购部年度工作总结
2015/08/13 职场文书
自考生自我评价
2019/06/21 职场文书