python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python BeautifulSoup中文乱码问题的2种解决方法
Apr 22 Python
python实现堆栈与队列的方法
Jan 15 Python
在RedHat系Linux上部署Python的Celery框架的教程
Apr 07 Python
Python的Django框架中forms表单类的使用方法详解
Jun 21 Python
Python使用正则表达式实现文本替换的方法
Apr 18 Python
Python实现重建二叉树的三种方法详解
Jun 23 Python
python解析xml简单示例
Jun 21 Python
Python进程,多进程,获取进程id,给子进程传递参数操作示例
Oct 11 Python
Python如何基于selenium实现自动登录博客园
Dec 16 Python
在keras中model.fit_generator()和model.fit()的区别说明
Jun 17 Python
Python调用系统命令os.system()和os.popen()的实现
Dec 31 Python
python 字典和列表嵌套用法详解
Jun 29 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
在PHP中运行Linux命令并启动SSH服务的例子
2014/06/12 PHP
本地计算机无法启动Apache故障处理
2014/08/08 PHP
PHP实现八皇后算法
2019/05/06 PHP
菜单效果
2006/10/14 Javascript
js innerHTML 的一些问题的解决方法
2008/06/22 Javascript
实现JavaScript中继承的三种方式
2009/10/16 Javascript
jquery Mobile入门—外部链接切换示例代码
2013/01/08 Javascript
js获取class的所有元素
2013/03/28 Javascript
JS打开新窗口的2种方式
2013/04/18 Javascript
jquery ajax应用中iframe自适应高度问题解决方法
2014/04/12 Javascript
javascript setinterval 的正确语法如何书写
2014/06/17 Javascript
jquery $.trim()去除字符串空格的实现方法【附图例】
2016/03/30 Javascript
jquery.form.js框架实现文件上传功能案例解析(springmvc)
2016/05/26 Javascript
javascript之Array 数组对象详解
2016/06/07 Javascript
js正则表达式验证表单【完整版】
2017/03/06 Javascript
vue mintui-Loadmore结合实现下拉刷新和上拉加载示例
2017/10/12 Javascript
web前端vue之vuex单独一文件使用方式实例详解
2018/01/11 Javascript
vue双向数据绑定知识点总结
2018/04/18 Javascript
《javascript设计模式》学习笔记四:Javascript面向对象程序设计链式调用实例分析
2020/04/07 Javascript
Vue切换div显示隐藏,多选,单选代码解析
2020/07/14 Javascript
electron踩坑之remote of undefined的解决
2020/10/06 Javascript
简单实现python爬虫功能
2015/12/31 Python
Python字典实现简单的三级菜单(实例讲解)
2017/07/31 Python
python实现TF-IDF算法解析
2018/01/02 Python
Python cookbook(数据结构与算法)在字典中将键映射到多个值上的方法
2018/02/18 Python
python3.6.3+opencv3.3.0实现动态人脸捕获
2018/05/25 Python
20行python代码的入门级小游戏的详解
2019/05/05 Python
python pyinstaller 加载ui路径方法
2019/06/10 Python
专注澳大利亚特产和新西兰特产的澳洲中文网:0061澳洲制造
2019/03/24 全球购物
英国性能汽车零件和发动机配件在线:Maxpeedingrods
2019/11/05 全球购物
小区门卫岗位职责
2013/12/31 职场文书
《他得的红圈圈最多》教学反思
2014/04/24 职场文书
单位绩效考核方案
2014/05/11 职场文书
2015年税务稽查工作总结
2015/05/26 职场文书
奖学金申请书(范文)
2019/08/14 职场文书
Python+腾讯云服务器实现每日自动健康打卡
2021/12/06 Python