python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python服务器与android客户端socket通信实例
Nov 12 Python
python实现根据ip地址反向查找主机名称的方法
Apr 29 Python
python类继承用法实例分析
May 27 Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 Python
对python以16进制打印字节数组的方法详解
Jan 24 Python
Python爬虫实现爬取百度百科词条功能实例
Apr 05 Python
python实现简单银行管理系统
Oct 25 Python
VSCode中自动为Python文件添加头部注释
Nov 14 Python
详解centos7+django+python3+mysql+阿里云部署项目全流程
Nov 15 Python
在django中自定义字段Field详解
Dec 03 Python
解决python DataFrame 打印结果不换行问题
Apr 09 Python
Django:使用filter的pk进行多值查询操作
Jul 15 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
PHP实现的一致性哈希算法完整实例
2015/11/14 PHP
php图片添加文字水印实现代码
2016/03/15 PHP
php 实现Hash表功能实例详解
2016/11/29 PHP
php获取今日开始时间和结束时间的方法
2017/02/27 PHP
javascript的对话框详解与参数
2007/03/08 Javascript
经典海量jQuery插件 大家可以收藏一下
2010/02/07 Javascript
javaScript(JS)替换节点实现思路介绍
2013/04/17 Javascript
在JS方法中返回多个值的方法汇总
2015/05/20 Javascript
javascript实现连续赋值
2015/08/10 Javascript
Bootstrap Table的使用总结
2016/10/08 Javascript
javascript 操作cookies详解及实例
2017/02/22 Javascript
10行原生JS实现文字无缝滚动(超简单)
2018/01/02 Javascript
基于vue和react的spa进行按需加载的实现方法
2018/09/29 Javascript
VUE引入第三方js包及调用方法讲解
2019/03/01 Javascript
使用imba.io框架得到比 vue 快50倍的性能基准
2019/06/17 Javascript
layui--select使用以及下拉框实现键盘选择的例子
2019/09/24 Javascript
JS数组方法reduce的用法实例分析
2020/03/03 Javascript
python 多线程应用介绍
2012/12/19 Python
详解Python中的元组与逻辑运算符
2015/10/13 Python
利用python模拟实现POST请求提交图片的方法
2017/07/25 Python
Python列表list解析操作示例【整数操作、字符操作、矩阵操作】
2017/07/25 Python
python中numpy包使用教程之数组和相关操作详解
2017/07/30 Python
Python实现基本数据结构中栈的操作示例
2017/12/04 Python
Python从数据库读取大量数据批量写入文件的方法
2018/12/10 Python
Python socket模块ftp传输文件过程解析
2019/11/05 Python
Python日志syslog使用原理详解
2020/02/18 Python
Python面向对象实现方法总结
2020/08/12 Python
纯CSS3发光分享按钮的实现教程
2014/09/06 HTML / CSS
中国领先的专业演出票务网:永乐票务
2016/08/29 全球购物
美国Rue La La闪购网站:奢侈品、中高档品牌限时折扣
2016/10/19 全球购物
英国计算机产品零售商:Novatech(定制个人电脑、笔记本电脑、工作站和服务器)
2018/01/28 全球购物
什么是java序列化,如何实现java序列化
2012/11/14 面试题
党员干部批评与自我批评反四风思想汇报
2014/09/21 职场文书
党员示范岗材料
2014/12/19 职场文书
迎新年主持词
2015/07/06 职场文书
Python中 range | np.arange | np.linspace三者的区别
2022/03/22 Python