python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现从一组颜色中找出与给定颜色最接近颜色的方法
Mar 19 Python
python探索之BaseHTTPServer-实现Web服务器介绍
Oct 28 Python
使用Python实现文字转语音并生成wav文件的例子
Aug 08 Python
Django rest framework jwt的使用方法详解
Aug 08 Python
Python List列表对象内置方法实例详解
Oct 22 Python
Python操作列表常用方法实例小结【创建、遍历、统计、切片等】
Oct 25 Python
Python tensorflow实现mnist手写数字识别示例【非卷积与卷积实现】
Dec 19 Python
在python中利用dict转json按输入顺序输出内容方式
Feb 27 Python
python图片剪裁代码(图片按四个点坐标剪裁)
Mar 10 Python
python 实现图像快速替换某种颜色
Jun 04 Python
详解torch.Tensor的4种乘法
Sep 03 Python
PyQt QMainWindow的使用示例
Mar 24 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
php变量与JS变量实现不通过跳转直接交互的方法
2017/08/25 PHP
laravel框架中表单请求类型和CSRF防护实例分析
2019/11/23 PHP
JavaScript面向对象之体会[总结]
2008/11/13 Javascript
javascript replace()正则替换实现代码
2010/02/26 Javascript
javascript数组去掉重复
2011/05/12 Javascript
浅谈JavaScript字符集
2014/05/22 Javascript
深入理解JavaScript系列(42):设计模式之原型模式详解
2015/03/04 Javascript
浅析创建javascript对象的方法
2016/05/13 Javascript
30分钟快速掌握Bootstrap框架
2016/05/24 Javascript
浅谈JavaScript函数的四种存在形态
2016/06/08 Javascript
jquery实现垂直和水平菜单导航栏
2020/08/27 Javascript
AngularJS框架的ng-app指令与自动加载实现方法分析
2017/01/04 Javascript
js实现符合国情的日期插件详解
2017/01/19 Javascript
webpack入门+react环境配置
2017/02/08 Javascript
React 路由懒加载的几种实现方案
2018/10/23 Javascript
基于Vue中的父子传值问题解决
2020/07/27 Javascript
[02:28]DOTA2亚洲邀请赛 LGD战队巡礼
2015/02/03 DOTA
[01:16:13]DOTA2-DPC中国联赛 正赛 SAG vs Dragon BO3 第一场 2月22日
2021/03/11 DOTA
对于Python的Django框架使用的一些实用建议
2015/04/03 Python
Python实现桶排序与快速排序算法结合应用示例
2017/11/22 Python
通过python+selenium3实现浏览器刷简书文章阅读量
2017/12/26 Python
用python实现的线程池实例代码
2018/01/06 Python
对python 匹配字符串开头和结尾的方法详解
2018/10/27 Python
Python3.5 + sklearn利用SVM自动识别字母验证码方法示例
2019/05/10 Python
python wav模块获取采样率 采样点声道量化位数(实例代码)
2020/01/22 Python
python 代码实现k-means聚类分析的思路(不使用现成聚类库)
2020/06/01 Python
Python selenium爬虫实现定时任务过程解析
2020/06/08 Python
用CSS3写的模仿iPhone中的返回按钮
2015/04/04 HTML / CSS
HTML5 Canvas 破碎重组的视频特效的示例代码
2019/09/24 HTML / CSS
html5+svg学习指南之SVG基础知识
2014/12/17 HTML / CSS
英国领先的游戏零售商:GAME
2019/09/24 全球购物
护理专业毕业生自我鉴定
2013/10/08 职场文书
销售顾问的岗位职责
2013/11/13 职场文书
车间操作工岗位职责
2013/12/19 职场文书
2016新教师岗前培训心得体会
2016/01/08 职场文书
SpringCloud Alibaba 基本开发框架搭建过程
2021/06/13 Java/Android