Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python中去空格函数的用法
Aug 21 Python
给Python中的MySQLdb模块添加超时功能的教程
May 05 Python
python计算牛顿迭代多项式实例分析
May 07 Python
python中利用队列asyncio.Queue进行通讯详解
Sep 10 Python
python爬虫之自动登录与验证码识别
Jun 15 Python
python使用magic模块进行文件类型识别方法
Dec 08 Python
Python 写入训练日志文件并控制台输出解析
Aug 13 Python
Pandas时间序列:重采样及频率转换方式
Dec 26 Python
Python实现CNN的多通道输入实例
Jan 17 Python
Python with标签使用方法解析
Jan 17 Python
Tensorflow实现多GPU并行方式
Feb 03 Python
使用pipenv管理python虚拟环境的全过程
Sep 25 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
20个PHP常用类库小结
2011/09/11 PHP
CodeIgniter实现从网站抓取图片并自动下载到文件夹里的方法
2015/06/17 PHP
PHP7之Mongodb API使用详解
2015/12/26 PHP
PHP基于自定义函数生成笛卡尔积的方法示例
2017/09/30 PHP
懒就要懒到底——鼠标自动点击(含时间判断)
2007/02/20 Javascript
JavaScript 自动分号插入(JavaScript synat:auto semicolon insertion)
2009/11/04 Javascript
jQuery 位置函数offset,innerWidth,innerHeight,outerWidth,outerHeight,scrollTop,scrollLeft
2010/03/23 Javascript
jquery实现带单选按钮的表格行选中时高亮显示
2013/08/01 Javascript
用javascript判断IE版本号简单实用且向后兼容
2013/09/11 Javascript
node.js中的fs.readlink方法使用说明
2014/12/17 Javascript
JS+CSS实现带有碰撞缓冲效果的竖向导航条代码
2015/09/15 Javascript
jquery+正则实现统一的表单验证
2015/09/20 Javascript
纯javascript移动优先的幻灯片效果
2015/11/02 Javascript
AngularJS中$interval的用法详解
2016/02/02 Javascript
js日期插件dateHelp获取本月、三个月、今年的日期
2016/03/07 Javascript
浅析$.getJSON异步请求和同步请求
2016/06/06 Javascript
JS验证input输入框(字母,数字,符号,中文)
2017/03/23 Javascript
vue中各组件之间传递数据的方法示例
2017/07/27 Javascript
JS加密插件CryptoJS实现AES加密操作示例
2018/08/16 Javascript
关于JavaScript中高阶函数的魅力详解
2018/09/07 Javascript
如何通过setTimeout理解JS运行机制详解
2019/03/23 Javascript
详解vue2.0模拟后台json数据
2019/05/16 Javascript
使用layui的layer组件做弹出层的例子
2019/09/27 Javascript
编写Python脚本批量下载DesktopNexus壁纸的教程
2015/05/06 Python
selenium处理元素定位点击无效问题
2019/06/12 Python
详解Python3中setuptools、Pip安装教程
2019/06/18 Python
Python IDLE或shell中切换路径的操作
2020/03/09 Python
python爬虫用request库处理cookie的实例讲解
2021/02/20 Python
推荐一些比较有用的css3新属性
2014/11/11 HTML / CSS
一款恶搞头像特效的制作过程 利用css3和jquery
2014/11/21 HTML / CSS
办公室秘书岗位职责范本
2014/02/11 职场文书
中专毕业生的自荐书
2014/07/01 职场文书
初中差生评语
2014/12/29 职场文书
2015年学校心理健康教育工作总结
2015/05/11 职场文书
2019年怎样写好导游词?
2019/07/02 职场文书
MySQL优化及索引解析
2022/03/17 MySQL