python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python实现爬取知乎神回复简单爬虫代码分享
Jan 04 Python
python执行子进程实现进程间通信的方法
Jun 02 Python
Python字典简介以及用法详解
Nov 15 Python
python 调用c语言函数的方法
Sep 29 Python
基于windows下pip安装python模块时报错总结
Jun 12 Python
Django forms组件的使用教程
Oct 08 Python
解析Python的缩进规则的使用
Jan 16 Python
python中时间、日期、时间戳的转换的实现方法
Jul 06 Python
Keras设定GPU使用内存大小方式(Tensorflow backend)
May 22 Python
Django-imagekit的使用详解
Jul 06 Python
python palywright库基本使用
Jan 21 Python
详解使用scrapy进行模拟登陆三种方式
Feb 21 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
php错误、异常处理机制(补充)
2012/05/07 PHP
php 无限分类 树形数据格式化代码
2016/10/11 PHP
Laravel 手动开关 Eloquent 修改器的操作方法
2019/12/30 PHP
javascript实现的网页局布刷新效果
2008/12/01 Javascript
解决ExtJS在chrome或火狐中正常显示在ie中不显示的浏览器兼容问题
2013/01/11 Javascript
jquery数据验证插件(自制,简单,练手)实例代码
2013/10/24 Javascript
实现图片预加载的三大方法及优缺点分析
2014/11/19 Javascript
js图片轮播效果实现代码
2020/04/18 Javascript
javascript创建cookie、读取cookie
2016/03/31 Javascript
easyui中combotree循环获取父节点至根节点并输出路径实现方法
2016/11/10 Javascript
jQuery EasyUI 页面加载等待及页面等待层
2017/02/06 Javascript
提高JavaScript执行效率的23个实用技巧
2017/03/01 Javascript
jQuery获取单选按钮radio选中值与去除所有radio选中状态的方法
2017/05/20 jQuery
bootstrap下拉分页样式 带跳转页码
2018/12/29 Javascript
详解vue使用插槽分发内容slot的用法
2019/03/28 Javascript
layui数据表格跨行自动合并的例子
2019/09/02 Javascript
JS Html转义和反转义(html编码和解码)的实现与使用方法总结
2020/03/10 Javascript
小程序表单认证布局及验证详解
2020/06/19 Javascript
JS如何监听div的resize事件详解
2020/12/03 Javascript
[12:21]VICI vs TNC (BO3)
2018/06/07 DOTA
python爬虫实现教程转换成 PDF 电子书
2017/02/19 Python
Python编程实现控制cmd命令行显示颜色的方法示例
2017/08/14 Python
mac下给python3安装requests库和scrapy库的实例
2018/06/13 Python
创建Shapefile文件并写入数据的例子
2019/11/26 Python
Django 路由层URLconf的实现
2019/12/30 Python
python线性插值解析
2020/07/05 Python
Django xadmin安装及使用详解
2020/10/26 Python
python3中TQDM库安装及使用详解
2020/11/18 Python
css3利用transform变形结合事件完成扇形导航
2020/10/26 HTML / CSS
医药代表个人的求职信分享
2013/12/08 职场文书
网站客服岗位职责
2014/04/05 职场文书
党员目标管理责任书
2014/07/25 职场文书
学校创先争优活动总结
2014/08/28 职场文书
2015中学教学工作总结
2015/07/22 职场文书
职业生涯规划书之大学四年
2019/08/07 职场文书
Python中time标准库的使用教程
2022/04/13 Python