python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python中random模块用法实例分析
May 19 Python
python关键字and和or用法实例
May 28 Python
基于Python和Scikit-Learn的机器学习探索
Oct 16 Python
对python3 一组数值的归一化处理方法详解
Jul 11 Python
python RC4加密操作示例【测试可用】
Sep 26 Python
使用Python刷淘宝喵币(低阶入门版)
Oct 30 Python
Python中os模块功能与用法详解
Feb 26 Python
python实现扫雷游戏
Mar 03 Python
tensorflow中tf.reduce_mean函数的使用
Apr 19 Python
jupyter notebook运行命令显示[*](解决办法)
May 18 Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 Python
Python实现图片指定位置加图片水印(附Pyinstaller打包exe)
Mar 04 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
星际争霸任务指南——人族
2020/03/04 星际争霸
实用函数4
2007/11/08 PHP
frename PHP 灵活文件命名函数 frename
2009/09/09 PHP
php中修改浏览器的User-Agent来伪装你的浏览器和操作系统
2011/07/29 PHP
php顺序查找和二分查找示例
2014/03/27 PHP
PHP实现的一致性哈希算法完整实例
2015/11/14 PHP
PHP使用自定义方法实现数组合并示例
2016/07/07 PHP
PHP数据库表操作的封装类及用法实例详解
2016/07/12 PHP
laravel 实现用户登录注销并限制功能
2019/10/24 PHP
类似天猫商品详情随浏览器移动的示例代码
2014/02/27 Javascript
javascript arguments使用示例
2014/12/16 Javascript
javascript制作网页图片上实现下雨效果
2015/02/26 Javascript
AngularJs 弹出模态框(model)
2016/04/07 Javascript
react-router实现按需加载
2017/05/09 Javascript
深入理解React Native原生模块与JS模块通信的几种方式
2017/07/24 Javascript
vue-cli中vue本地实现跨域调试接口
2019/01/16 Javascript
ES6基础之默认参数值
2019/02/21 Javascript
基于webpack4+vue-cli3项目实现换肤功能
2019/07/17 Javascript
element-ui如何防止重复提交的方法步骤
2019/12/09 Javascript
js实现抽奖的两种方法
2020/03/19 Javascript
jquery更改元素属性attr()方法操作示例
2020/05/22 jQuery
如何搭建一个完整的Vue3.0+ts的项目步骤
2020/10/18 Javascript
antd-日历组件,前后禁止选择,只能选中间一部分的实例
2020/10/29 Javascript
Python类的基础入门知识
2008/11/24 Python
连接Python程序与MySQL的教程
2015/04/29 Python
对python实现合并两个排序链表的方法详解
2019/01/23 Python
简单了解python的一些位运算技巧
2019/07/13 Python
python实现获取单向链表倒数第k个结点的值示例
2019/10/24 Python
Python常用库大全及简要说明
2020/01/17 Python
利用Python实现Json序列化库的方法步骤
2020/09/09 Python
Python Spyder 调出缩进对齐线的操作
2021/02/26 Python
为什么要优先使用同步代码块而不是同步方法?
2013/01/30 面试题
电子商务个人自荐信
2013/12/12 职场文书
应届毕业生自我鉴定范文
2013/12/27 职场文书
加强作风建设演讲稿
2014/10/24 职场文书
深度学习详解之初试机器学习
2021/04/14 Python