python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
处理Python中的URLError异常的方法
Apr 30 Python
python 统计列表中不同元素的数量方法
Jun 29 Python
pycharm安装和首次使用教程
Aug 27 Python
python的常用模块之collections模块详解
Dec 06 Python
Python 做曲线拟合和求积分的方法
Dec 29 Python
关于Pycharm无法debug问题的总结
Jan 19 Python
详解python中@的用法
Mar 27 Python
Flask框架学习笔记之路由和反向路由详解【图文与实例】
Aug 12 Python
Python实现中值滤波去噪方式
Dec 18 Python
python爬虫构建代理ip池抓取数据库的示例代码
Sep 22 Python
如何利用Python写个坦克大战
Nov 18 Python
Python万能模板案例之matplotlib绘制甘特图
Apr 13 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
php开发文档 会员收费1期
2012/08/14 PHP
PHP COOKIE及时生效的方法介绍
2014/02/14 PHP
thinkphp模板的包含与渲染实例分析
2014/11/26 PHP
PHP模拟asp中response类实现方法
2015/08/08 PHP
PHP生成图片验证码功能示例
2017/01/12 PHP
php图像验证码生成代码
2017/06/08 PHP
Yii框架的布局文件实例分析
2019/09/04 PHP
PHP队列场景以及实现代码实例详解
2021/02/26 PHP
javascript for-in有序遍历json数据并探讨各个浏览器差异
2015/11/30 Javascript
JavaScript模块化开发之SeaJS
2015/12/13 Javascript
Javascript基础教程之比较null和undefined值
2016/05/16 Javascript
jQuery实现的右下角广告窗体跟随效果示例
2016/09/16 Javascript
详解vue几种主动刷新的方法总结
2019/02/19 Javascript
微信小程序视图控件与bindtap之间的问题的解决
2019/04/08 Javascript
vue实现登录页面的验证码以及验证过程解析(面向新手)
2019/08/02 Javascript
JavaScript Window窗口对象属性和使用方法
2020/01/19 Javascript
[03:05]DOTA2英雄基础教程 嗜血狂魔
2013/12/10 DOTA
谈谈Python进行验证码识别的一些想法
2016/01/25 Python
PyQt5 pyqt多线程操作入门
2018/05/05 Python
Windows下python3.7安装教程
2018/07/31 Python
用django-allauth实现第三方登录的示例代码
2019/06/24 Python
python实现简单银行管理系统
2019/10/25 Python
基于python的列表list和集合set操作
2019/11/24 Python
Python基于Tensor FLow的图像处理操作详解
2020/01/15 Python
Python txt文件如何转换成字典
2020/11/03 Python
ROSEFIELD手表荷兰官方网上商店:北欧极简设计女士腕表品牌
2018/01/24 全球购物
什么是.net
2015/08/03 面试题
机械电子工程专业推荐信范文
2013/11/20 职场文书
创业计划实施的7大步骤
2014/02/05 职场文书
2014高考励志标语
2014/06/05 职场文书
2014年财政所工作总结
2014/11/22 职场文书
pytorch加载预训练模型与自己模型不匹配的解决方案
2021/05/13 Python
Apache Pulsar集群搭建部署详细过程
2022/02/12 Servers
Java死锁的排查
2022/05/11 Java/Android
Spring中的@Transactional的工作原理
2022/06/05 Java/Android
Win10服务主机占用内存怎么办?Win10服务主机进程占用大量内存解决方法
2022/09/23 数码科技