python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python中的localtime()方法使用详解
May 22 Python
Python函数返回值实例分析
Jun 08 Python
解决Linux系统中python matplotlib画图的中文显示问题
Jun 15 Python
python 实现一个贴吧图片爬虫的示例
Oct 12 Python
Python使用pickle模块存储数据报错解决示例代码
Jan 26 Python
Python列表推导式与生成器用法分析
Aug 02 Python
python list格式数据excel导出方法
Oct 31 Python
Python魔法方法 容器部方法详解
Jan 02 Python
Python openpyxl模块原理及用法解析
Jan 19 Python
Python+redis通过限流保护高并发系统
Apr 15 Python
Python matplotlib模块及柱状图用法解析
Aug 10 Python
Python 利用flask搭建一个共享服务器的步骤
Dec 05 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
codeigniter集成ucenter1.6双向通信的解决办法
2014/06/12 PHP
PHP实现下载断点续传的方法
2014/11/12 PHP
php的mail函数发送UTF-8编码中文邮件时标题乱码的解决办法
2015/10/20 PHP
php中类和对象:静态属性、静态方法
2017/04/09 PHP
js 操作select相关方法函数
2009/12/06 Javascript
在Javascript里访问SharePoint列表数据的实现方法
2011/05/22 Javascript
js判断输入是否为数字的具体实例
2013/08/03 Javascript
javascript动态创建链接的方法
2015/05/13 Javascript
浅谈DOCTYPE对$(window).height()取值的影响
2016/07/21 Javascript
JS实现简单易用的手机端浮动窗口显示效果
2016/09/07 Javascript
浅谈jquery中next与siblings的区别
2016/10/27 Javascript
js遮罩效果制作弹出注册界面效果
2017/01/25 Javascript
vue中页面跳转拦截器的实现方法
2017/08/23 Javascript
Vue利用canvas实现移动端手写板的方法
2018/05/03 Javascript
JavaScript折半查找(二分查找)算法原理与实现方法示例
2018/08/06 Javascript
使用element-ui table expand展开行实现手风琴效果
2019/03/15 Javascript
vue监听dom大小改变案例
2020/07/29 Javascript
如何在Vue.JS中使用图标组件
2020/08/04 Javascript
Vue 列表页带参数进详情页的操作(router-link)
2020/11/13 Javascript
python基础入门详解(文件输入/输出 内建类型 字典操作使用方法)
2013/12/08 Python
在python3环境下的Django中使用MySQL数据库的实例
2017/08/29 Python
Django查询数据库的性能优化示例代码
2017/09/24 Python
python执行使用shell命令方法分享
2017/11/08 Python
Python实现的栈(Stack)
2018/01/26 Python
opencv 图像轮廓的实现示例
2020/07/08 Python
Appium+Python实现简单的自动化登录测试的实现
2021/01/26 Python
英国假发网站:Hothair
2018/02/23 全球购物
英国豪华针织品牌John Smedley的在线销售商:The Outlet by John Smedley
2018/04/08 全球购物
Tirendo比利时:在线购买轮胎
2018/10/22 全球购物
C#面试问题
2016/07/29 面试题
函授生自我鉴定
2014/03/25 职场文书
《画》教学反思
2014/04/14 职场文书
客服专员岗位职责范本
2015/04/07 职场文书
文明礼仪倡议书
2015/04/28 职场文书
Matlab求解数组中的最大值及它所在的具体位置
2021/04/16 Python
JavaScript数组reduce()方法的语法与实例解析
2021/07/07 Javascript