python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Pyhton中单行和多行注释的使用方法及规范
Oct 11 Python
python编程线性回归代码示例
Dec 07 Python
Python实现的tcp端口检测操作示例
Jul 24 Python
Python基于opencv实现的简单画板功能示例
Mar 04 Python
Python socket实现的文件下载器功能示例
Nov 15 Python
Python 项目转化为so文件实例
Dec 23 Python
python 读取更新中的log 或其它文本方式
Dec 24 Python
TensorFlow 读取CSV数据的实例
Feb 05 Python
浅谈多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置
Jun 30 Python
python实现代码审查自动回复消息
Feb 01 Python
怎么用Python识别手势数字
Jun 07 Python
python游戏开发Pygame框架
Apr 22 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
php socket方式提交的post详解
2008/07/19 PHP
php实现汉字验证码和算式验证码的方法
2015/03/07 PHP
ThinkPHP中session函数详解
2016/09/14 PHP
简单谈谈PHP中的trait
2017/02/25 PHP
laravel-admin 后台表格筛选设置默认的查询日期方法
2019/10/03 PHP
window.open被浏览器拦截后的自定义提示效果代码
2007/11/19 Javascript
原来Jquery.load的方法可以一直load下去
2011/03/28 Javascript
原生js做的手风琴效果的导航菜单
2013/11/08 Javascript
20个实用的JavaScript技巧分享
2014/11/28 Javascript
Javascript json object 与string 相互转换的简单实现
2016/09/27 Javascript
jQuery下拉菜单的实现代码
2016/11/03 Javascript
Angular多选、全选、批量选择操作实例代码
2017/03/10 Javascript
vue实现直播间点赞飘心效果的示例代码
2019/09/20 Javascript
SSM+layUI 根据登录信息显示不同的页面方法
2019/09/20 Javascript
使用preload预加载页面资源时注意事项
2020/02/03 Javascript
JavaScript动态生成表格的示例
2020/11/02 Javascript
[02:11]2014DOTA2 TI专访VG战队Fenrir:队伍气氛良好
2014/07/11 DOTA
[00:43]DOTA2小紫本全民票选福利PA至宝全方位展示
2014/11/25 DOTA
介绍Python的Django框架中的QuerySets
2015/04/20 Python
python 3利用BeautifulSoup抓取div标签的方法示例
2017/05/28 Python
利用Python批量提取Win10锁屏壁纸实战教程
2018/03/27 Python
Ubuntu16.04/树莓派Python3+opencv配置教程(分享)
2018/04/02 Python
opencv实现简单人脸识别
2021/02/19 Python
Django实现简单网页弹出警告代码
2019/11/15 Python
python实现单目标、多目标、多尺度、自定义特征的KCF跟踪算法(实例代码)
2020/01/08 Python
python模拟点击玩游戏的实例讲解
2020/11/26 Python
HTML5 Geolocation API的正确使用方法
2018/12/04 HTML / CSS
英国手机零售商:Carphone Warehouse
2018/06/06 全球购物
教学质量评估实施方案
2014/03/17 职场文书
教师节演讲稿
2014/05/06 职场文书
优质护理服务演讲稿
2014/05/07 职场文书
教师师德考核自我评价
2014/09/13 职场文书
班子成员四风问题自我剖析材料
2014/09/29 职场文书
教师工作决心书
2015/02/04 职场文书
2016年小学六一儿童节活动总结
2016/04/06 职场文书
浅谈为什么我的 z-index 又不生效了
2022/07/15 HTML / CSS