Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python随机生成数模块random使用实例
Apr 13 Python
Windows环境下python环境安装使用图文教程
Mar 13 Python
python将控制台输出保存至文件的方法
Jan 07 Python
python实现函数极小值
Jul 10 Python
Django如何实现上传图片功能
Aug 16 Python
解决tensorflow添加ptb库的问题
Feb 10 Python
python实现ssh及sftp功能(实例代码)
Mar 16 Python
Python图片处理模块PIL操作方法(pillow)
Apr 07 Python
Keras自定义实现带masking的meanpooling层方式
Jun 16 Python
Python数据可视化之用Matplotlib绘制常用图形
Jun 03 Python
使用pycharm运行flask应用程序的详细教程
Jun 07 Python
详解python的异常捕获
Mar 03 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
PHP 使用MySQL管理Session的回调函数详解
2013/06/21 PHP
thinkPHP实现将excel导入到数据库中的方法
2016/04/22 PHP
PHP substr()函数参数解释及用法讲解
2017/11/23 PHP
如何让PHP编码更加好看利于阅读
2019/05/12 PHP
扩展String功能方法
2006/09/22 Javascript
不同浏览器的怪癖小结
2010/07/11 Javascript
javascript学习笔记(二十) 获得和设置元素的特性(属性)
2012/06/20 Javascript
在新窗口打开超链接的方法小结
2013/04/14 Javascript
BootStrap实现轮播图效果(收藏)
2016/12/30 Javascript
js实现悬浮窗效果(支持拖动)
2017/03/09 Javascript
微信小程序 登录的简单实现
2017/04/19 Javascript
详解Node.js开发中的express-session
2017/05/19 Javascript
JS使用ActiveXObject实现用户提交表单时屏蔽敏感词功能
2017/06/20 Javascript
关于laydate.js加载laydate.css路径错误问题解决
2017/12/27 Javascript
VUE v-for循环中每个item节点动态绑定不同函数的实例
2018/09/26 Javascript
webpack结合express实现自动刷新的方法
2019/05/07 Javascript
vue+webpack 更换主题N种方案优劣分析
2019/10/28 Javascript
微信小程序以7天为周期连续签到7天功能效果的示例代码
2020/08/20 Javascript
Vue +WebSocket + WaveSurferJS 实现H5聊天对话交互的实例
2020/11/18 Vue.js
[47:31]完美世界DOTA2联赛PWL S3 INK ICE vs DLG 第一场 12.12
2020/12/16 DOTA
Python中使用asyncio 封装文件读写
2016/09/11 Python
Python3中条件控制、循环与函数的简易教程
2017/11/21 Python
python移位运算的实现
2019/07/15 Python
Python 继承,重写,super()调用父类方法操作示例
2019/09/29 Python
Python的信号库Blinker用法详解
2020/12/31 Python
完美解决torch.cuda.is_available()一直返回False的玄学方法
2021/02/06 Python
DTD的含义以及作用
2014/01/26 面试题
高分子材料与工程专业个人求职信
2013/12/15 职场文书
教师申诉制度
2014/01/29 职场文书
工艺员岗位职责
2014/02/11 职场文书
询价采购方案
2014/06/09 职场文书
公司法人授权委托书范本
2014/09/12 职场文书
寒暑假实习证明书模板
2014/11/29 职场文书
详解PHP服务器如何在有限的资源里最大提升并发能力
2021/05/25 PHP
5行Python代码实现一键批量扣图
2021/06/29 Python
Python中Numpy和Matplotlib的基本使用指南
2021/11/02 Python