python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python list 合并连接字符串的方法
Mar 09 Python
Python输出PowerPoint(ppt)文件中全部文字信息的方法
Apr 28 Python
python获取文件扩展名的方法
Jul 06 Python
Python编程实现两个文件夹里文件的对比功能示例【包含内容的对比】
Jun 20 Python
python爬虫获取百度首页内容教学
Dec 23 Python
50行Python代码获取高考志愿信息的实现方法
Jul 23 Python
Python pandas.DataFrame 找出有空值的行
Sep 09 Python
pytorch中的卷积和池化计算方式详解
Jan 03 Python
Pandas —— resample()重采样和asfreq()频度转换方式
Feb 26 Python
使用BeautifulSoup4解析XML的方法小结
Dec 07 Python
python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析
Apr 14 Python
python神经网络学习 使用Keras进行回归运算
May 04 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
php递归调用删除数组空值元素的方法
2015/04/28 PHP
Laravel Intervention/image图片处理扩展包的安装、使用与可能遇到的坑详解
2017/11/14 PHP
PHP删除字符串中非字母数字字符方法总结
2019/01/20 PHP
php与阿里云短信接口接入操作案例分析
2020/05/27 PHP
基于jquery的tab切换 js原理
2010/04/01 Javascript
基于datagrid框架的查询
2013/04/08 Javascript
使用js实现数据格式化
2014/12/03 Javascript
jQuery实现表格行上下移动和置顶效果
2015/06/05 Javascript
js省市联动效果完整实例代码
2015/12/09 Javascript
JS未跨域操作iframe里的DOM
2016/06/01 Javascript
JS实现图片高斯模糊切换效果的焦点图实例
2017/01/21 Javascript
关于bootstrap日期转化,bootstrap-editable的简单使用,bootstrap-fileinput的使用详解
2017/05/12 Javascript
react实现一个优雅的图片占位模块组件详解
2017/10/30 Javascript
通过npm或yarn自动生成vue组件的方法示例
2019/02/12 Javascript
json数据格式常见操作示例
2019/06/13 Javascript
vue-cli —— 如何局部修改Element样式
2020/10/22 Javascript
Python模拟登陆实现代码
2017/06/14 Python
使用pygame模块编写贪吃蛇的实例讲解
2018/02/05 Python
python中kmeans聚类实现代码
2018/02/23 Python
python购物车程序简单代码
2018/04/18 Python
Python模拟百度自动输入搜索功能的实例
2019/02/14 Python
不到40行代码用Python实现一个简单的推荐系统
2019/05/10 Python
python写文件时覆盖原来的实例方法
2020/07/22 Python
Python Matplotlib绘图基础知识代码解析
2020/08/31 Python
Python爬虫简单运用爬取代理IP的实现
2020/12/01 Python
德国电子商城:ComputerUniverse
2017/04/21 全球购物
英国皇室御用百货:福南梅森(Fortnum & Mason)
2017/12/03 全球购物
惠普香港官方商店:HP香港
2019/04/30 全球购物
CSMA/CD介质访问控制协议
2015/11/17 面试题
会计专业毕业生推荐信
2013/11/05 职场文书
工商治理实习生的自我评价
2014/01/15 职场文书
企业整改报告范文
2014/11/08 职场文书
公司内部升职自荐信
2015/03/27 职场文书
故意伤害罪辩护词
2015/05/21 职场文书
java objectUtils 使用可能会出现的问题
2022/02/28 Java/Android
字节飞书面试promise.all实现示例
2022/06/16 Javascript