python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
使用python读取csv文件快速插入数据库的实例
Jun 21 Python
Centos下实现安装Python3.6和Python2共存
Aug 15 Python
python提取具有某种特定字符串的行数据方法
Dec 11 Python
浅谈python 导入模块和解决文件句柄找不到问题
Dec 15 Python
python 同时运行多个程序的实例
Jan 07 Python
Python进程间通信Queue消息队列用法分析
May 22 Python
Python操作SQLite数据库过程解析
Sep 02 Python
python3.x 生成3维随机数组实例
Nov 28 Python
PyCharm 无法 import pandas 程序卡住的解决方式
Mar 09 Python
pycharm sciview的图片另存为操作
Jun 01 Python
Python利用myqr库创建自己的二维码
Nov 24 Python
Python内置类型集合set和frozenset的使用详解
Apr 26 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
PHP表单提交表单名称含有点号(.)则会被转化为下划线(_)
2011/12/14 PHP
Codeigniter的dom类用法实例
2015/06/26 PHP
关于Laravel Route重定向的一个注意点
2017/01/16 PHP
深入剖析JavaScript中的枚举功能
2014/03/06 Javascript
JavaScript给按钮绑定点击事件(onclick)的方法
2015/04/07 Javascript
jquery读写cookie操作实例分析
2015/12/24 Javascript
jQuery实现鼠标经过时高亮,同时其他同级元素变暗的效果
2016/09/18 Javascript
JavaScript中return用法示例
2016/11/29 Javascript
JavaScript登录记住密码操作(超简单代码)
2017/03/22 Javascript
JavaScript实现弹出广告功能
2017/03/30 Javascript
angularjs的select使用及默认选中设置
2017/04/08 Javascript
JS实现图片点击后出现模态框效果
2017/05/03 Javascript
JavaScript限定范围拖拽及自定义滚动条应用(3)
2017/05/17 Javascript
解决koa2 ctx.render is not a function报错问题
2018/08/07 Javascript
Vue中的Props(不可变状态)
2018/09/29 Javascript
JS如何获取地址栏的参数实例讲解
2018/10/06 Javascript
layui table去掉右侧滑动条的实现方法
2019/09/05 Javascript
Vue使用Three.js加载glTF模型的方法详解
2020/06/14 Javascript
vue中移动端调取本地的复制的文本方式
2020/07/18 Javascript
详解python单例模式与metaclass
2016/01/15 Python
Python模块结构与布局操作方法实例分析
2017/07/24 Python
用python结合jieba和wordcloud实现词云效果
2017/09/05 Python
python进程管理工具supervisor的安装与使用教程
2017/09/05 Python
对Python 窗体(tkinter)文本编辑器(Text)详解
2018/10/11 Python
Python 给定的经纬度标注在地图上的实现方法
2019/07/05 Python
python使用 cx_Oracle 模块进行查询操作示例
2019/11/28 Python
Python自动登录QQ的实现示例
2020/08/28 Python
介绍一下Java中标识符的命名规则
2014/02/03 面试题
房屋租赁协议书范本
2014/04/10 职场文书
低碳生活倡议书
2014/04/14 职场文书
护士优质服务演讲稿
2014/08/26 职场文书
2014年志愿者工作总结
2014/11/20 职场文书
2014年法务工作总结
2014/12/11 职场文书
早安问候语大全
2015/11/10 职场文书
Java界面编程实现界面跳转
2022/06/16 Java/Android
JS前端可视化canvas动画原理及其推导实现
2022/08/05 Javascript