Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python 匹配任意字符(包括换行符)的正则表达式写法
Oct 29 Python
Python实现豆瓣图片下载的方法
May 25 Python
使用Python的Django框架结合jQuery实现AJAX购物车页面
Apr 11 Python
浅谈python中set使用
Jun 30 Python
插入排序_Python与PHP的实现版(推荐)
May 11 Python
手把手教你python实现SVM算法
Dec 27 Python
Python实现从log日志中提取ip的方法【正则提取】
Mar 31 Python
详解python3中tkinter知识点
Jun 21 Python
python 重命名轴索引的方法
Nov 10 Python
python如何实现数据的线性拟合
Jul 19 Python
django前端页面下拉选择框默认值设置方式
Aug 09 Python
Python configparser模块应用过程解析
Aug 14 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
比较时间段一与时间段二是否有交集的php函数
2011/05/31 PHP
关于IIS php调用com组件的权限问题
2012/01/11 PHP
PHP设置images目录不充许http访问的方法
2016/11/01 PHP
asp.net和php的区别点总结
2019/10/10 PHP
Laravel 集成微信用户登录和绑定的实现
2019/12/27 PHP
深入理解JavaScript系列(3) 全面解析Module模式
2012/01/15 Javascript
兼容ie、firefox的图片自动缩放的css跟js代码分享
2012/01/21 Javascript
使用jQuery.fn自定义jQuery翻页插件
2013/01/20 Javascript
javascript面向对象之共享成员属性与方法及prototype关键字用法
2015/01/13 Javascript
关于backbone url请求中参数带有中文存入数据库是乱码的快速解决办法
2016/06/13 Javascript
最细致的vue.js基础语法 值得收藏!
2016/11/03 Javascript
JQuery 动态生成Table表格实例代码
2016/12/02 Javascript
ReactNative实现图片上传功能的示例代码
2017/07/11 Javascript
vue 子组件向父组件传值方法
2018/02/26 Javascript
Vue.js特性Scoped Slots的浅析
2019/02/20 Javascript
vue实现点击追加选中样式效果
2019/11/01 Javascript
jQuery 实现DOM元素拖拽交换位置的实例代码
2020/07/14 jQuery
JavaScript Image对象实现原理实例解析
2020/08/26 Javascript
[09:43]DOTA2每周TOP10 精彩击杀集锦vol.5
2014/06/25 DOTA
Python 安装setuptools和pip工具操作方法(必看)
2017/05/22 Python
python django使用haystack:全文检索的框架(实例讲解)
2017/09/27 Python
在Mac下使用python实现简单的目录树展示方法
2018/11/01 Python
学习python的前途 python挣钱
2019/02/27 Python
Django Celery异步任务队列的实现
2019/07/24 Python
Flask框架模板继承实现方法分析
2019/07/31 Python
Python Sphinx使用实例及问题解决
2020/01/17 Python
django序列化时使用外键的真实值操作
2020/07/15 Python
涂鸦板简单实现 Html5编写属于自己的画画板
2016/07/05 HTML / CSS
Html5获取高德地图定位天气的方法
2019/12/26 HTML / CSS
高街生活方式全球在线商店:AZBRO
2017/08/26 全球购物
英国家庭和商业健身器材购物网站:Fitness Options
2018/07/05 全球购物
方法名是否可以与构造器的名字相同
2012/06/04 面试题
业务经理岗位职责
2013/11/11 职场文书
珍惜资源保护环境的建议书
2014/05/14 职场文书
spring boot中nativeQuery的用法
2021/07/26 Java/Android
Python可视化神器pyecharts之绘制地理图表练习
2022/07/07 Python