Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python处理PDF及生成多层PDF实例代码
Apr 24 Python
python中安装模块包版本冲突问题的解决
May 02 Python
Python3使用PyQt5制作简单的画板/手写板实例
Oct 19 Python
Python3实现转换Image图片格式
Jun 21 Python
使用TensorFlow实现二分类的方法示例
Feb 05 Python
对Python中class和instance以及self的用法详解
Jun 26 Python
在PyCharm的 Terminal(终端)切换Python版本的方法
Aug 02 Python
Python中使用filter过滤列表的一个小技巧分享
May 02 Python
keras实现theano和tensorflow训练的模型相互转换
Jun 19 Python
Pycharm新手使用教程(图文详解)
Sep 17 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 Python
python-opencv 中值滤波{cv2.medianBlur(src, ksize)}的用法
Jun 05 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
php自动更新版权信息显示的方法
2015/06/19 PHP
php实现的简单中文验证码功能示例
2017/01/03 PHP
PHP数组去重的更快实现方式分析
2018/05/09 PHP
php实现微信企业转账功能
2018/10/02 PHP
直接生成打开窗口代码,不必下载
2008/05/14 Javascript
基于jQuery的360图片展示实现代码
2012/06/14 Javascript
分享XmlHttpRequest调用Webservice的一点心得
2012/07/20 Javascript
JS 对输入框进行限制(常用的都有)
2013/07/30 Javascript
js data日期初始化的5种方法
2013/12/29 Javascript
JSONP跨域GET请求解决Ajax跨域访问问题
2014/12/31 Javascript
浅谈JavaScript正则表达式分组匹配
2015/04/10 Javascript
jquery实现动静态条形统计图
2015/08/17 Javascript
解决bootstrap导航栏navbar在IE8上存在缺陷的方法
2016/07/01 Javascript
AngularJS学习笔记(三)数据双向绑定的简单实例
2016/11/08 Javascript
基于AngularJS实现表单验证功能
2017/07/28 Javascript
实现两个文本框同时输入的实例
2017/09/25 Javascript
详解使用webpack构建多页面应用
2017/12/21 Javascript
基于vue-cli、elementUI的Vue超简单入门小例子(推荐)
2019/04/17 Javascript
关于layui的动态图标不显示的解决方法
2019/09/04 Javascript
[15:35]教你分分钟做大人:天怒法师
2014/10/30 DOTA
python实现在pickling的时候压缩的方法
2014/09/25 Python
python判断字符串是否纯数字的方法
2014/11/19 Python
Python之ReportLab绘制条形码和二维码的实例
2018/01/15 Python
Python+tkinter使用80行代码实现一个计算器实例
2018/01/16 Python
python顺序的读取文件夹下名称有序的文件方法
2018/07/11 Python
tensorflow模型转ncnn的操作方式
2020/05/25 Python
记一次python 爬虫爬取深圳租房信息的过程及遇到的问题
2020/11/24 Python
Philosophy美国官网:美国美容品牌
2016/08/15 全球购物
英国地毯卖家:The Rug Seller
2019/07/18 全球购物
幼儿园保育员辞职信
2014/01/12 职场文书
品酒会策划方案
2014/05/26 职场文书
法英专业大学生职业生涯规划范文:衡外情,量己力!
2014/09/23 职场文书
2014年乡镇妇联工作总结
2014/12/02 职场文书
2016年度师德标兵先进事迹材料
2016/02/26 职场文书
2016年“9.22”世界无车日活动小结
2016/04/05 职场文书
Mysql 如何实现多张无关联表查询数据并分页
2021/06/05 MySQL