Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python语言编写电脑时间自动同步小工具
Mar 08 Python
Python编程生成随机用户名及密码的方法示例
May 05 Python
微信跳一跳python代码实现
Jan 05 Python
python实现多人聊天室
Mar 31 Python
Win10下python 2.7.13 安装配置方法图文教程
Sep 18 Python
Python3实现统计单词表中每个字母出现频率的方法示例
Jan 28 Python
numpy基础教程之np.linalg
Feb 12 Python
Pandas中DataFrame的分组/分割/合并的实现
Jul 16 Python
详解Python3定时器任务代码
Sep 23 Python
Tensorflow 定义变量,函数,数值计算等名字的更新方式
Feb 10 Python
python 解决tqdm模块不能单行显示的问题
Feb 19 Python
通过案例解析python鸭子类型相关原理
Oct 10 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
Yii操作数据库的3种方法
2014/03/11 PHP
20个2014年最优秀的PHP框架回顾
2014/10/22 PHP
php自定义分页类完整实例
2015/12/25 PHP
WordPress的主题编写中获取头部模板和底部模板
2015/12/28 PHP
iis 7下安装laravel 5.4环境的方法教程
2017/06/14 PHP
不懂JavaScript应该怎样学
2008/04/16 Javascript
jquery 图片 上一张 下一张 链接效果(续篇)
2010/04/20 Javascript
js Form.elements[i]的使用实例
2011/11/13 Javascript
javascript实现网页背景烟花效果的方法
2015/08/06 Javascript
不得不分享的JavaScript常用方法函数集(上)
2015/12/23 Javascript
JS IOS/iPhone的Safari浏览器不兼容Javascript中的Date()问题如何解决
2016/11/11 Javascript
ES6新特性三: Generator(生成器)函数详解
2017/04/21 Javascript
vue 利用路由守卫判断是否登录的方法
2018/09/29 Javascript
JS面试题大坑之隐式类型转换实例代码
2018/10/14 Javascript
JS使用iView的Dropdown实现一个右键菜单
2019/05/06 Javascript
用Python程序抓取网页的HTML信息的一个小实例
2015/05/02 Python
Python3实现的字典、列表和json对象互转功能示例
2018/05/22 Python
Python实现爬虫从网络上下载文档的实例代码
2018/06/13 Python
Django2.1.3 中间件使用详解
2018/11/26 Python
python字典一键多值实例代码分享
2019/06/14 Python
关于Python核心框架tornado的异步协程的2种方法详解
2019/08/28 Python
安装python及pycharm的教程图解
2019/10/10 Python
pytorch 求网络模型参数实例
2019/12/30 Python
python 按钮点击关闭窗口的实现
2020/03/04 Python
django xadmin action兼容自定义model权限教程
2020/03/30 Python
什么是三层交换,说说和路由的区别在那里
2014/09/01 面试题
培训主管岗位职责
2014/02/01 职场文书
互联网电子商务专业毕业生求职信
2014/03/18 职场文书
竞选生活委员演讲稿
2014/04/28 职场文书
仲裁协议书
2014/09/26 职场文书
先进教师个人总结
2015/02/11 职场文书
村官2015年度工作总结
2015/10/14 职场文书
用基于python的appium爬取b站直播消费记录
2021/04/17 Python
python中的plt.cm.Paired用法说明
2021/05/31 Python
CSS实现单选折叠菜单功能
2021/11/01 HTML / CSS
Android开发之WECHAT微信小程序路由跳转的两种形式
2022/04/12 Java/Android