编程 Python

Python中文分词工具之结巴分词用法实例总结【经典案例】

Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考，具体如下：

结巴分词工具的安装及基本用法，前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息，利用结巴分词工具进行分词及词性标注。

示例代码如下：

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下：

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站，提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示：

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现，需要在开头加上：

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为：

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成，耗时："+str(t2-t1)+"秒。") #反馈结果

运行成功：

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示：

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题：《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python中文分词工具之结巴分词用法实例总结【经典案例】

- Author -

捂汗县长

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中去空格函数的用法

Aug 21 Python

给Python中的MySQLdb模块添加超时功能的教程

May 05 Python

python计算牛顿迭代多项式实例分析

May 07 Python

python中利用队列asyncio.Queue进行通讯详解

Sep 10 Python

python爬虫之自动登录与验证码识别

Jun 15 Python

python使用magic模块进行文件类型识别方法

Dec 08 Python

Python 写入训练日志文件并控制台输出解析

Aug 13 Python

Pandas时间序列:重采样及频率转换方式

Dec 26 Python

Python实现CNN的多通道输入实例

Jan 17 Python

Python with标签使用方法解析

Jan 17 Python

Tensorflow实现多GPU并行方式

Feb 03 Python

使用pipenv管理python虚拟环境的全过程

Sep 25 Python

Python结巴中文分词工具使用过程中遇到的问题及解决方法

Apr 15 #Python

Python编程实现生成特定范围内不重复多个随机数的2种方法

Apr 14 #Python

Python编程判断一个正整数是否为素数的方法

Apr 14 #Python

python编程实现归并排序

Apr 14 #Python

python实现折半查找和归并排序算法

Apr 14 #Python

Python+Wordpress制作小说站

Apr 14 #Python

Python 中 list 的各项操作技巧

Apr 13 #Python

You might like

20个PHP常用类库小结

2011/09/11 PHP

CodeIgniter实现从网站抓取图片并自动下载到文件夹里的方法

2015/06/17 PHP

PHP7之Mongodb API使用详解

2015/12/26 PHP

PHP基于自定义函数生成笛卡尔积的方法示例

2017/09/30 PHP

懒就要懒到底——鼠标自动点击（含时间判断）

2007/02/20 Javascript

JavaScript 自动分号插入（JavaScript synat:auto semicolon insertion）

2009/11/04 Javascript

jQuery 位置函数offset,innerWidth,innerHeight,outerWidth,outerHeight,scrollTop,scrollLeft

2010/03/23 Javascript

jquery实现带单选按钮的表格行选中时高亮显示

2013/08/01 Javascript

用javascript判断IE版本号简单实用且向后兼容

2013/09/11 Javascript

node.js中的fs.readlink方法使用说明

2014/12/17 Javascript

JS+CSS实现带有碰撞缓冲效果的竖向导航条代码

2015/09/15 Javascript

jquery+正则实现统一的表单验证

2015/09/20 Javascript

纯javascript移动优先的幻灯片效果

2015/11/02 Javascript

AngularJS中$interval的用法详解

2016/02/02 Javascript

js日期插件dateHelp获取本月、三个月、今年的日期

2016/03/07 Javascript

浅析$.getJSON异步请求和同步请求

2016/06/06 Javascript

JS验证input输入框（字母，数字，符号，中文）

2017/03/23 Javascript

vue中各组件之间传递数据的方法示例

2017/07/27 Javascript

JS加密插件CryptoJS实现AES加密操作示例

2018/08/16 Javascript

关于JavaScript中高阶函数的魅力详解

2018/09/07 Javascript

如何通过setTimeout理解JS运行机制详解

2019/03/23 Javascript

详解vue2.0模拟后台json数据

2019/05/16 Javascript

使用layui的layer组件做弹出层的例子

2019/09/27 Javascript

编写Python脚本批量下载DesktopNexus壁纸的教程

2015/05/06 Python

selenium处理元素定位点击无效问题

2019/06/12 Python

详解Python3中setuptools、Pip安装教程

2019/06/18 Python

Python IDLE或shell中切换路径的操作

2020/03/09 Python

python爬虫用request库处理cookie的实例讲解

2021/02/20 Python

推荐一些比较有用的css3新属性

2014/11/11 HTML / CSS

一款恶搞头像特效的制作过程利用css3和jquery

2014/11/21 HTML / CSS

办公室秘书岗位职责范本

2014/02/11 职场文书

中专毕业生的自荐书

2014/07/01 职场文书

初中差生评语

2014/12/29 职场文书

2015年学校心理健康教育工作总结

2015/05/11 职场文书

2019年怎样写好导游词？

2019/07/02 职场文书

MySQL优化及索引解析

2022/03/17 MySQL