python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
全面了解Python的getattr(),setattr(),delattr(),hasattr()
Jun 14 Python
Python随机数random模块使用指南
Sep 09 Python
Python中easy_install 和 pip 的安装及使用
Jun 05 Python
python3+PyQt5 数据库编程--增删改实例
Jun 17 Python
解决python3 requests headers参数不能有中文的问题
Aug 21 Python
Python发送邮件的实例代码讲解
Oct 16 Python
妙用itchat! python实现久坐提醒功能
Nov 25 Python
浅谈tensorflow 中tf.concat()的使用
Feb 07 Python
keras导入weights方式
Jun 12 Python
Python数据库封装实现代码示例解析
Sep 05 Python
python 实现aes256加密
Nov 27 Python
python代码实现备忘录案例讲解
Jul 26 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
关于我转生变成史莱姆这档事:第二季PV上线,萌王2021年回归
2020/05/06 日漫
require(),include(),require_once()和include_once()区别
2008/03/27 PHP
PHP实现根据设备类型自动跳转相应页面的方法
2014/07/24 PHP
php使用fgetcsv读取csv文件出现乱码的解决方法
2014/11/08 PHP
phpmyadmin提示The mbstring extension is missing的解决方法
2014/12/17 PHP
PHP curl使用实例
2015/07/02 PHP
PHP使用文件锁解决高并发问题示例
2018/03/29 PHP
php实现的PDO异常处理操作分析
2018/12/27 PHP
div模拟选择框示例代码
2013/11/03 Javascript
js的正则test,match,exec详细解析
2014/01/29 Javascript
JQuery球队选择实例
2015/05/18 Javascript
JS+CSS实现带有碰撞缓冲效果的竖向导航条代码
2015/09/15 Javascript
js点击文本框后才加载验证码实例代码
2015/10/20 Javascript
原生javascript实现分享到朋友圈功能 支持ios和android
2016/05/11 Javascript
一个简单的JavaScript Map实例(分享)
2016/08/03 Javascript
vue制作加载更多功能的正确打开方式
2016/10/12 Javascript
基于NodeJS+MongoDB+AngularJS+Bootstrap开发书店案例分析
2017/01/12 NodeJs
详解vue-validator(vue验证器)
2017/01/16 Javascript
angular写一个列表的选择全选交互组件的示例
2018/01/22 Javascript
微信小程序实现刷脸登录
2018/05/25 Javascript
Vue2 轮播图slide组件实例代码
2018/05/31 Javascript
对Vue.js之事件的绑定(v-on: 或者 @ )详解
2018/09/15 Javascript
微信小程序实现单选功能
2018/10/30 Javascript
Vue数据绑定简析小结
2019/05/07 Javascript
p5.js绘制创意自画像
2019/11/04 Javascript
小程序实现列表倒计时功能
2021/01/29 Javascript
Python程序员鲜为人知但你应该知道的17个问题
2014/06/04 Python
详谈Python中列表list,元祖tuple和numpy中的array区别
2018/04/18 Python
python脚本生成caffe train_list.txt的方法
2018/04/27 Python
Python数据可视化 pyecharts实现各种统计图表过程详解
2019/08/15 Python
django的403/404/500错误自定义页面的配置方式
2020/05/21 Python
详解利用python识别图片中的条码(pyzbar)及条码图片矫正和增强
2020/11/17 Python
浅谈CSS3中的变形功能-transform功能
2017/12/27 HTML / CSS
婚礼司仪主持词
2014/03/14 职场文书
一个成功的互联网创业项目,必须满足这些要求
2019/08/23 职场文书
Python可视化学习之seaborn调色盘
2022/02/24 Python