Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python私有属性和方法实例分析
Jan 15 Python
python3.5绘制随机漫步图
Aug 27 Python
在IPython中执行Python程序文件的示例
Nov 01 Python
Python学习笔记之pandas索引列、过滤、分组、求和功能示例
Jun 03 Python
python3射线法判断点是否在多边形内
Jun 28 Python
python实现在函数图像上添加文字和标注的方法
Jul 08 Python
python实现修改固定模式的字符串内容操作示例
Dec 30 Python
Python实现一个优先级队列的方法
Jul 31 Python
python3爬虫中多线程进行解锁操作实例
Nov 25 Python
python中用ctypes模拟点击的实例讲解
Nov 26 Python
python 基于opencv 绘制图像轮廓
Dec 11 Python
详解Python 3.10 中的新功能和变化
Apr 28 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
使用字符串函数输出整数化的PHP版本号
2006/10/09 PHP
php实现图片添加水印功能
2014/02/13 PHP
php像数组一样存取和修改字符串字符
2014/03/21 PHP
js setTimeout()函数介绍及应用以倒计时为例
2013/12/12 Javascript
jquery、js操作checkbox全选反选
2014/03/12 Javascript
JavaScript中的lastIndexOf()方法使用详解
2015/06/06 Javascript
详解WordPress开发中get_current_screen()函数的使用
2016/01/11 Javascript
详解js正则表达式验证时间格式xxxx-xx-xx形式
2018/02/09 Javascript
vue 实现axios拦截、页面跳转和token 验证
2018/07/17 Javascript
Vue Prop属性功能与用法实例详解
2019/02/23 Javascript
JavaScript函数的4种调用方法实例分析
2019/03/05 Javascript
jQuery操作cookie的示例代码
2019/06/05 jQuery
Vue中使用better-scroll实现轮播图组件
2020/03/07 Javascript
[03:30]DOTA2完美“圣”典精彩集锦
2016/12/27 DOTA
浅谈python中的__init__、__new__和__call__方法
2017/07/18 Python
利用Hyperic调用Python实现进程守护
2018/01/02 Python
对python添加模块路径的三种方法总结
2018/10/16 Python
一篇文章了解Python中常见的序列化操作
2019/06/20 Python
Python转换时间的图文方法
2019/07/01 Python
基于python代码批量处理图片resize
2020/06/04 Python
详解HTML5中的标签
2015/06/19 HTML / CSS
html5中的input新属性range使用记录
2014/09/05 HTML / CSS
葡萄牙鞋子品牌:Fair
2016/12/10 全球购物
C#中类(class)与结构(struct)的异同
2013/11/03 面试题
教师自我鉴定范文
2013/11/10 职场文书
求职信模板怎么做
2014/01/26 职场文书
幼儿园元旦亲子活动方案
2014/02/17 职场文书
表彰会主持词
2014/03/26 职场文书
高三学生评语大全
2014/04/25 职场文书
五一口号
2014/06/19 职场文书
采购员岗位职责
2015/02/03 职场文书
2015年暑期社会实践活动总结
2015/03/27 职场文书
Oracle笔记
2021/04/05 Oracle
Golang 编译成DLL文件的操作
2021/05/06 Golang
Python绘画好看的星空图
2022/03/17 Python
springboot入门 之profile设置方式
2022/04/04 Java/Android