Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 元组(Tuple)操作详解
Mar 11 Python
Python异常处理总结
Aug 15 Python
Python和perl实现批量对目录下电子书文件重命名的代码分享
Nov 21 Python
通过cmd进入python的实例操作
Jun 26 Python
Python+OpenCV+pyQt5录制双目摄像头视频的实例
Jun 28 Python
django url到views参数传递的实例
Jul 19 Python
Django将默认的SQLite更换为MySQL的实现
Nov 18 Python
Python底层封装实现方法详解
Jan 22 Python
详解有关PyCharm安装库失败的问题的解决方法
Feb 02 Python
使用Python将Exception异常错误堆栈信息写入日志文件
Apr 08 Python
Python虚拟环境的创建和包下载过程分析
Jun 19 Python
Python 实现定积分与二重定积分的操作
May 26 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
PHP数组内存耗用太多问题的解决方法
2010/04/05 PHP
PHP-redis中文文档介绍
2013/02/07 PHP
PHP新建类问题分析及解决思路
2015/11/19 PHP
PHP实现截取中文字符串不出现?号的解决方法
2016/12/29 PHP
Laravel中encrypt和decrypt的实现方法
2017/09/24 PHP
PHP pthreads v3使用中的一些坑和注意点分析
2020/02/21 PHP
TP5框架页面跳转样式操作示例
2020/04/05 PHP
jQuery 使用手册(三)
2009/09/23 Javascript
利用CSS、JavaScript及Ajax实现高效的图片预加载
2013/10/16 Javascript
JavaScript实现刷新不重记的倒计时
2016/08/10 Javascript
微信小程序 window_x64环境搭建
2016/09/30 Javascript
AngularJS实现根据变量改变动态加载模板的方法
2016/11/04 Javascript
详解MVC如何使用开源分页插件(shenniu.pager.js)
2016/12/16 Javascript
[01:00:53]OG vs IG 2018国际邀请赛小组赛BO2 第一场 8.18
2018/08/19 DOTA
利用Python实现颜色色值转换的小工具
2016/10/27 Python
详解如何使用Python编写vim插件
2017/11/28 Python
Python3使用turtle绘制超立方体图形示例
2018/06/19 Python
python实现搜索文本文件内容脚本
2018/06/22 Python
Django Sitemap 站点地图的实现方法
2019/04/29 Python
给 TensorFlow 变量进行赋值的方式
2020/02/10 Python
全网首秀之Pycharm十大实用技巧(推荐)
2020/04/27 Python
PyQT5 实现快捷键复制表格数据的方法示例
2020/06/19 Python
Python faker生成器生成虚拟数据代码实例
2020/07/20 Python
浅析python连接数据库的重要事项
2021/02/22 Python
python 基于pygame实现俄罗斯方块
2021/03/02 Python
css3 中实现炫酷的loading效果
2019/04/26 HTML / CSS
使用html2canvas.js实现页面截图并显示或上传的示例代码
2018/12/18 HTML / CSS
世界上最大的罕见唱片、CD和音乐纪念品网上商店:991.com
2018/05/03 全球购物
奥地利购买珠宝和手表网站:ELLA JUWELEN
2019/09/03 全球购物
医科大学生毕业的自我评价分享
2013/11/12 职场文书
培训自我鉴定
2014/01/31 职场文书
安全生产专项整治方案
2014/05/06 职场文书
考研导师推荐信范文
2015/03/27 职场文书
2019感恩宣传标语!
2019/07/05 职场文书
pytorch损失反向传播后梯度为none的问题
2021/05/12 Python
alibaba seata服务端具体实现
2022/02/24 Java/Android