python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python语言技巧之三元运算符使用介绍
Mar 04 Python
详解python中的json的基本使用方法
Dec 21 Python
Anaconda多环境多版本python配置操作方法
Sep 12 Python
详解Appium+Python之生成html测试报告
Jan 04 Python
Django  ORM 练习题及答案
Jul 19 Python
Django中使用MySQL5.5的教程
Dec 18 Python
python带参数打包exe及调用方式
Dec 21 Python
OpenCV哈里斯(Harris)角点检测的实现
Jan 15 Python
使用python-cv2实现视频的分解与合成的示例代码
Oct 26 Python
Python基于unittest实现测试用例执行
Nov 25 Python
python 命令行传参方法总结
May 25 Python
使用python绘制分组对比柱状图
Apr 21 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
很温暖很温暖的Lester Young
2021/03/03 冲泡冲煮
PHP 创建标签云函数代码
2010/05/26 PHP
使用array mutisort 实现按某字段对数据排序
2013/06/18 PHP
php使用正则表达式获取图片url的方法
2015/01/16 PHP
通过php修改xml文档内容的方法
2015/01/23 PHP
Yii2.0高级框架数据库增删改查的一些操作
2015/11/16 PHP
php如何控制用户对图片的访问 PHP禁止图片盗链
2016/03/25 PHP
PHP使用SWOOLE扩展实现定时同步 MySQL 数据
2017/04/09 PHP
倒记时60刷新网页的js代码
2014/02/18 Javascript
使用js实现一个可编辑的select下拉列表
2014/02/20 Javascript
jQuery中hasClass()方法用法实例
2015/01/06 Javascript
浅谈javascript中的DOM方法
2015/07/16 Javascript
基于Flowplayer打造一款免费的WEB视频播放器附源码
2015/09/06 Javascript
JavaScript函数的一些注意要点小结及js匿名函数
2015/11/10 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
JQuery EasyUI Layout 在from布局自适应窗口大小的实现方法
2016/05/28 Javascript
Ionic学习日记实现验证码倒计时
2018/02/08 Javascript
JavaScript数据结构之栈实例用法
2019/01/18 Javascript
js canvas实现5张图片合成一张图片
2019/07/15 Javascript
JavaScript如何借用构造函数继承
2019/11/06 Javascript
JS常用跨域方法实现原理解析
2020/12/09 Javascript
python自动化测试之从命令行运行测试用例with verbosity
2014/09/28 Python
python解析xml文件操作实例
2014/10/05 Python
Python连接mssql数据库编码问题解决方法
2015/01/01 Python
PyQt5笔记之弹出窗口大全
2019/06/20 Python
使用python打印十行杨辉三角过程详解
2019/07/10 Python
Python图像处理库PIL的ImageGrab模块介绍详解
2020/02/26 Python
Python 发送邮件方法总结
2020/08/10 Python
全面介绍python中很常用的单元测试框架unitest
2020/12/14 Python
Maison Lab荷兰:名牌Outlet购物
2018/08/10 全球购物
工程师岗位职责
2013/11/08 职场文书
国贸专业自荐信范文
2014/03/02 职场文书
医学求职信
2014/05/28 职场文书
铁路安全反思材料
2014/12/24 职场文书
工会经费申请报告
2015/05/15 职场文书
golang 定时任务方面time.Sleep和time.Tick的优劣对比分析
2021/05/05 Golang