python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的爬虫包Beautiful Soup中用正则表达式来搜索
Jan 20 Python
深入解析Python中的list列表及其切片和迭代操作
Mar 13 Python
在centos7中分布式部署pyspider
May 03 Python
对python抓取需要登录网站数据的方法详解
May 21 Python
python调用百度地图WEB服务API获取地点对应坐标值
Jan 16 Python
python 求一个列表中所有元素的乘积实例
Jun 11 Python
Python中turtle库的使用实例
Sep 09 Python
三个python爬虫项目实例代码
Dec 28 Python
python字典的值可以修改吗
Jun 29 Python
python 基于卡方值分箱算法的实现示例
Jul 17 Python
Python 实现二叉查找树的示例代码
Dec 21 Python
Python爬虫入门案例之爬取二手房源数据
Oct 16 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
php 广告调用类代码(支持Flash调用)
2011/08/11 PHP
PHP缓存机制Output Control详解
2014/07/14 PHP
JavaScript 动态将数字金额转化为中文大写金额
2009/05/14 Javascript
JavaScript中的运算符种类及其规则介绍
2013/09/26 Javascript
jQuery on方法传递参数示例
2014/12/09 Javascript
JavaScript的设计模式经典之代理模式
2016/02/24 Javascript
JavaScript对Json的增删改属性详解
2016/06/02 Javascript
ES6入门教程之let和const命令详解
2017/05/17 Javascript
js自定义Tab选项卡效果
2017/06/05 Javascript
DataTables添加额外的查询参数和删除columns等无用参数实例
2017/07/04 Javascript
详解RequireJs官方使用教程
2017/10/31 Javascript
JS加密插件CryptoJS实现的DES加密示例
2018/08/16 Javascript
JS实现根据数组对象的某一属性排序操作示例
2019/01/14 Javascript
[52:06]FNATIC vs NIP 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
Python使用稀疏矩阵节省内存实例
2014/06/27 Python
Python简单调用MySQL存储过程并获得返回值的方法
2015/07/20 Python
Python实现的密码强度检测器示例
2017/08/23 Python
python提取图像的名字*.jpg到txt文本的方法
2018/05/10 Python
目前最全的python的就业方向
2018/06/05 Python
Python数据类型之List列表实例详解
2019/05/08 Python
详解Pandas之容易让人混淆的行选择和列选择
2019/07/10 Python
Django实现将一个字典传到前端显示出来
2020/04/03 Python
Python map及filter函数使用方法解析
2020/08/06 Python
Python使用requests模块爬取百度翻译
2020/08/25 Python
python 贪心算法的实现
2020/09/18 Python
详解python polyscope库的安装和例程
2020/11/13 Python
英国在线女鞋目的地:SIMMI
2018/12/27 全球购物
DELPHI面试题研发笔试试卷
2015/11/08 面试题
大学生毕业自我评价范文分享
2013/11/11 职场文书
工厂保洁员岗位职责
2013/12/04 职场文书
毕业自荐书
2013/12/09 职场文书
《自然之道》教学反思
2014/02/11 职场文书
违反校纪校规检讨书
2014/02/15 职场文书
大型活动组织方案
2014/05/10 职场文书
2015年复活节活动总结
2015/02/27 职场文书
导游词之上海杜莎夫人蜡像馆
2019/11/22 职场文书