python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
对于Python编程中一些重用与缩减的建议
Apr 14 Python
Python中的测试模块unittest和doctest的使用教程
Apr 14 Python
深入讲解Python函数中参数的使用及默认参数的陷阱
Mar 13 Python
python调用Delphi写的Dll代码示例
Dec 05 Python
Python3 中把txt数据文件读入到矩阵中的方法
Apr 27 Python
运用Python的webbrowser实现定时打开特定网页
Feb 21 Python
Python OS模块实例详解
Apr 15 Python
python制作填词游戏步骤详解
May 05 Python
python五子棋游戏的设计与实现
Jun 18 Python
使用OpenCV-python3实现滑动条更新图像的Canny边缘检测功能
Dec 12 Python
pyinstaller打包单文件时--uac-admin选项不起作用怎么办
Apr 15 Python
新手常见Python错误及异常解决处理方案
Jun 18 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
抓取YAHOO股票报价的类
2009/05/15 PHP
yii2框架中使用下拉菜单的自动搜索yii-widget-select2实例分析
2016/01/09 PHP
php curl 模拟登录并获取数据实例详解
2016/12/22 PHP
PHP实现对xml的增删改查操作案例分析
2017/05/19 PHP
Laravel程序架构设计思路之使用动作类
2018/06/07 PHP
区分JS中的undefined,null,"",0和false
2007/03/08 Javascript
编写高性能的JavaScript 脚本的加载与执行
2010/04/19 Javascript
可在线编辑网页文字效果代码(单击)
2013/03/02 Javascript
通过js简单实现将一个文本内容转译成加密文本
2013/10/22 Javascript
使用jquery自定义鼠标样式满足个性需求
2013/11/05 Javascript
jquery实现当滑动到一定位置时固定效果
2014/06/17 Javascript
jquery使用ul模拟select实现表单美化的方法
2015/08/18 Javascript
JavaScript实现点击按钮直接打印
2016/01/06 Javascript
关于Bootstrap弹出框无法调用问题的解决办法
2016/03/10 Javascript
Atitit.js的键盘按键事件捆绑and事件调度
2016/04/01 Javascript
jQuery扩展+xml实现表单验证功能的方法
2016/12/25 Javascript
BootStrap Fileinput初始化时的一些参数
2016/12/30 Javascript
微信小程序页面间传递数组对象方法解析
2019/11/06 Javascript
RxJS在TypeScript中的简单使用详解
2020/04/13 Javascript
JS面向对象实现飞机大战
2020/08/26 Javascript
Python实现单词拼写检查
2015/04/25 Python
Python贪心算法实例小结
2018/04/22 Python
一条命令解决mac版本python IDLE不能输入中文问题
2018/05/15 Python
对django中render()与render_to_response()的区别详解
2018/10/16 Python
windows下Pycharm安装opencv的多种方法
2020/03/05 Python
什么是用户模式(User Mode)与内核模式(Kernel Mode) ?
2014/07/21 面试题
品管员岗位职责
2013/11/10 职场文书
市场部规章制度
2014/01/24 职场文书
商务日语专业毕业生自荐信
2014/03/27 职场文书
英文演讲稿
2014/05/15 职场文书
学校安全责任书范本
2014/07/23 职场文书
司机个人年终总结
2015/03/03 职场文书
闪闪红星观后感
2015/06/08 职场文书
小学运动会报道稿
2015/07/22 职场文书
2016年公司“3.12”植树节活动总结
2016/03/16 职场文书
JavaScript与JQuery框架基础入门教程
2021/07/15 Javascript