python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python动态监控日志内容的示例
Feb 16 Python
Python解释执行原理分析
Aug 22 Python
Python 探针的实现原理
Apr 23 Python
Python使用ntplib库同步校准当地时间的方法
Jul 02 Python
Python实现将SQLite中的数据直接输出为CVS的方法示例
Jul 13 Python
python爬虫爬取淘宝商品信息(selenum+phontomjs)
Feb 24 Python
使用python实现快速搭建简易的FTP服务器
Sep 12 Python
python列表list保留顺序去重的实例
Dec 14 Python
Python的互斥锁与信号量详解
Sep 12 Python
Python爬虫使用代理IP的实现
Oct 27 Python
PyTorch中model.zero_grad()和optimizer.zero_grad()用法
Jun 24 Python
详解python日志输出使用配置文件格式
Feb 10 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
收音机另类DIY - 纸巾盒做外壳
2021/03/02 无线电
PHP 中的一些经验积累
2006/10/09 PHP
mac下使用brew配置环境的步骤分享
2011/05/23 PHP
php网站地图生成类示例
2014/01/13 PHP
PHP实现HTML生成PDF文件的方法
2014/11/07 PHP
PHP中基本HTTP认证技巧分析
2015/03/16 PHP
ThinkPHP5.0框架控制器继承基类和自定义类示例
2018/05/25 PHP
PHP+MySQL使用mysql_num_rows实现模糊查询图书信息功能
2018/05/31 PHP
Avengerls vs KG BO3 第一场2.18
2021/03/10 DOTA
比较简单的异步加载JS文件的代码
2009/07/18 Javascript
输入框的字数时时统计—关于 onpropertychange 和 oninput 使用
2011/10/21 Javascript
js常用代码段整理
2011/11/30 Javascript
JavaScript实现拖拽网页内元素的方法
2015/04/15 Javascript
js窗口关闭提示信息(兼容IE和firefox)
2015/10/23 Javascript
bootstrap table操作技巧分享
2017/02/15 Javascript
JS实现微信里判断页面是否被分享成功的方法
2017/06/06 Javascript
vue实现2048小游戏功能思路详解
2018/05/09 Javascript
微信小程序搭建自己的Https服务器
2019/05/02 Javascript
解决element-ui里的下拉多选框 el-select 时,默认值不可删除问题
2020/08/14 Javascript
JS removeAttribute()方法实现删除元素的某个属性
2021/01/11 Javascript
python3.0 字典key排序
2008/12/24 Python
Python实现的数据结构与算法之链表详解
2015/04/22 Python
python使用post提交数据到远程url的方法
2015/04/29 Python
使用python绘制常用的图表
2016/08/27 Python
Python requests发送post请求的一些疑点
2018/05/20 Python
Python正则表达式匹配日期与时间的方法
2019/07/07 Python
解决pycharm最左侧Tool Buttons显示不全的问题
2019/12/17 Python
django实现将修改好的新模型写入数据库
2020/03/31 Python
python实现简单学生信息管理系统
2020/04/09 Python
python 进程池pool使用详解
2020/10/15 Python
eBay法国购物网站:eBay.fr
2017/10/21 全球购物
升职自荐书范文
2013/11/28 职场文书
学习党章思想汇报
2014/01/07 职场文书
五十岁生日宴会答谢词
2014/01/15 职场文书
房屋出租委托书格式
2014/09/23 职场文书
党的群众路线教育实践活动党员个人剖析材料
2014/10/08 职场文书