Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python编程实战之Oracle数据库操作示例
Jun 21 Python
linecache模块加载和缓存文件内容详解
Jan 11 Python
python实现pdf转换成word/txt纯文本文件
Jun 07 Python
详解django自定义中间件处理
Nov 21 Python
对django xadmin自定义菜单的实例详解
Jan 03 Python
Pycharm以root权限运行脚本的方法
Jan 19 Python
解决python3 requests headers参数不能有中文的问题
Aug 21 Python
pytorch实现从本地加载 .pth 格式模型
Feb 14 Python
python中执行smtplib失败的处理方法
Jul 01 Python
Python自动登录QQ的实现示例
Aug 28 Python
Python实例教程之检索输出月份日历表
Dec 16 Python
浅谈Python从全局与局部变量到装饰器的相关知识
Jun 21 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
PHP 验证登陆类分享
2015/03/13 PHP
php根据指定位置和长度获得子字符串的方法
2015/03/17 PHP
动态表单验证的操作方法和TP框架里面的ajax表单验证
2017/07/19 PHP
input+select(multiple) 实现下拉框输入值
2009/05/21 Javascript
jQuery 前的按键判断代码
2010/03/19 Javascript
JavaScript匿名函数与委托使用示例
2014/07/22 Javascript
javascript 10进制和62进制的相互转换
2014/07/31 Javascript
JavaScript知识点总结之如何提高性能
2016/01/15 Javascript
Vue.js结合Ueditor富文本编辑器的实例代码
2017/07/11 Javascript
React Native 使用Fetch发送网络请求的示例代码
2017/12/02 Javascript
js装饰设计模式学习心得
2018/02/17 Javascript
微信小程序实现倒计时补零功能
2018/07/09 Javascript
layui 中select下拉change事件失效的解决方法
2019/09/20 Javascript
vuejs中父子组件之间通信方法实例详解
2020/01/17 Javascript
[01:04:01]2014 DOTA2国际邀请赛中国区预选赛 5 23 CIS VS DT第一场
2014/05/24 DOTA
Python实现的飞速中文网小说下载脚本
2015/04/23 Python
Python简单实现Base64编码和解码的方法
2017/04/29 Python
python requests更换代理适用于IP频率限制的方法
2019/08/21 Python
python多进程重复加载的解决方式
2019/12/13 Python
Django实现图片上传功能步骤解析
2020/04/22 Python
阿里旅行:飞猪
2017/01/05 全球购物
台湾旅游网站:雄狮旅游网
2017/08/16 全球购物
澳大利亚在线床零售商:Bedworks
2020/09/01 全球购物
敏捷开发的主要原则都有哪些
2015/04/26 面试题
高级工程师岗位职责
2013/12/15 职场文书
2014年三八妇女节活动方案
2014/02/28 职场文书
小学一年级学生评语
2014/04/22 职场文书
2014年巴西世界杯口号
2014/06/05 职场文书
化工专业自荐书
2014/06/16 职场文书
应届生面试求职信
2014/07/02 职场文书
党员自我评议对照检查材料
2014/09/27 职场文书
2015年行政工作总结范文
2015/04/09 职场文书
2015年社区工会工作总结
2015/05/26 职场文书
Python入门学习之类的相关知识总结
2021/05/25 Python
JS数组方法some、every和find的使用详情
2021/10/05 Javascript
用Python爬取英雄联盟的皮肤详细示例
2021/12/06 Python