Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
用Python制作简单的朴素基数估计器的教程
Apr 01 Python
[原创]windows下Anaconda的安装与配置正解(Anaconda入门教程)
Apr 05 Python
python代码过长的换行方法
Jul 19 Python
Python+selenium 获取浏览器窗口坐标、句柄的方法
Oct 14 Python
详解Pandas之容易让人混淆的行选择和列选择
Jul 10 Python
如何不用安装python就能在.NET里调用Python库
Jul 12 Python
一行python实现树形结构的方法
Aug 09 Python
Python监控服务器实用工具psutil使用解析
Dec 19 Python
python序列类型种类详解
Feb 26 Python
Keras之fit_generator与train_on_batch用法
Jun 17 Python
Python Matplotlib绘制条形图的全过程
Oct 24 Python
Python使用Opencv打开笔记本电脑摄像头报错解问题及解决
Jun 21 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
Amazon Prime Video平台《无限住人 -IMMORTAL-》2020年开始TV放送!
2020/03/06 日漫
php5中类的学习
2008/03/28 PHP
解析PHP处理换行符的问题 \r\n
2013/06/13 PHP
php自定义hash函数实例
2015/05/05 PHP
php设计模式之状态模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
DHTML 中的绝对定位
2006/11/26 Javascript
JS数组合并push与concat区别分析
2015/12/17 Javascript
学习JavaScript设计模式之代理模式
2016/01/12 Javascript
Jquery UI实现一次拖拽多个选中的元素操作
2020/12/01 Javascript
vue2.0实现倒计时的插件(时间戳 刷新 跳转 都不影响)
2017/03/30 Javascript
Chart.js 轻量级HTML5图表绘制工具库(知识整理)
2018/05/22 Javascript
vue实现在一个方法执行完后执行另一个方法的示例
2018/08/25 Javascript
vue项目引入字体.ttf的方法
2018/09/28 Javascript
浅谈vue后台管理系统权限控制思考与实践
2018/12/19 Javascript
深入理解javascript prototype的相关知识
2019/09/19 Javascript
js实现坦克大战游戏
2020/02/24 Javascript
用webAPI实现图片放大镜效果
2020/11/23 Javascript
vue-quill-editor插入图片路径太长问题解决方法
2021/01/08 Vue.js
vue 数据双向绑定的实现方法
2021/03/04 Vue.js
python文件读写操作与linux shell变量命令交互执行的方法
2015/01/14 Python
python实现爬取千万淘宝商品的方法
2015/06/30 Python
详解Python的Django框架中inclusion_tag的使用
2015/07/21 Python
使用Python的Django框架结合jQuery实现AJAX购物车页面
2016/04/11 Python
python使用Plotly绘图工具绘制散点图、线形图
2019/04/02 Python
python字典排序的方法
2019/10/12 Python
解决os.path.isdir() 判断文件夹却返回false的问题
2019/11/29 Python
Python实现鼠标自动在屏幕上随机移动功能
2020/03/14 Python
Python 实现一个计时器
2020/07/28 Python
python dir函数快速掌握用法技巧
2020/12/09 Python
HTML5 拖放(Drag 和 Drop)详解与实例代码
2017/09/14 HTML / CSS
公司董事长助理工作职责
2014/07/12 职场文书
中学生2014国庆节演讲稿:不屈的民族
2014/09/21 职场文书
优秀大学生事迹材料
2014/12/24 职场文书
2016年七夕爱情寄语
2015/12/04 职场文书
简历中的自我评价应该这样写!
2019/07/12 职场文书
Html5新增了哪些功能
2021/04/16 HTML / CSS