python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python用来获得图片exif信息的库实例分析
Mar 16 Python
python提取页面内url列表的方法
May 25 Python
python通过get,post方式发送http请求和接收http响应的方法
May 26 Python
Python实现将MySQL数据库表中的数据导出生成csv格式文件的方法
Jan 11 Python
python矩阵/字典实现最短路径算法
Jan 17 Python
详解python编译器和解释器的区别
Jun 24 Python
pytorch自定义二值化网络层方式
Jan 07 Python
通过实例简单了解python yield使用方法
Aug 06 Python
python selenium xpath定位操作
Sep 01 Python
Python confluent kafka客户端配置kerberos认证流程详解
Oct 12 Python
VSCODE配置Markdown及Markdown基础语法详解
Jan 19 Python
pytorch 运行一段时间后出现GPU OOM的问题
Jun 02 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
浅谈thinkphp的实例化模型
2015/01/04 PHP
PHP创建单例后台进程的方法示例
2017/05/23 PHP
PHP使用标准库spl实现的观察者模式示例
2018/08/04 PHP
jQuery EasyUI API 中文文档 - TimeSpinner时间微调器
2011/10/23 Javascript
更换select下拉菜单背景样式的实现代码
2011/12/20 Javascript
js分页工具实例
2015/01/28 Javascript
jQuery实现DIV层收缩展开的方法
2015/02/27 Javascript
原生js实现移动开发轮播图、相册滑动特效
2015/04/17 Javascript
node.js express安装及示例网站搭建方法(分享)
2016/08/22 Javascript
Angular的自定义指令以及实例
2016/12/26 Javascript
JS设计模式之数据访问对象模式的实例讲解
2017/09/30 Javascript
ionic4+angular7+cordova上传图片功能的实例代码
2019/06/19 Javascript
JS前端知识点总结之页面加载事件,数组操作,DOM节点操作,循环和分支
2019/07/04 Javascript
vue项目中全局引入1个.scss文件的问题解决
2019/08/01 Javascript
解决mui框架中switch开关通过js控制开或者关状态时小圆点不动的问题
2019/09/03 Javascript
原生js canvas实现鼠标跟随效果
2020/08/02 Javascript
Python编程中的for循环语句学习教程
2015/10/14 Python
python嵌套函数使用外部函数变量的方法(Python2和Python3)
2016/01/31 Python
Python输出带颜色的字符串实例
2017/10/10 Python
微信跳一跳自动运行python脚本
2018/01/08 Python
Python中asyncio模块的深入讲解
2019/06/10 Python
pandas 时间格式转换的实现
2019/07/06 Python
详解python中的生成器、迭代器、闭包、装饰器
2019/08/22 Python
详解如何修改jupyter notebook的默认目录和默认浏览器
2021/01/24 Python
雅虎笔试题(字符串操作)
2015/03/24 面试题
珍惜水资源建议书
2014/03/12 职场文书
竞选部长演讲稿
2014/04/26 职场文书
师德师风建设方案
2014/05/08 职场文书
党的群众路线教育实践活动组织生活会发言材料
2014/10/17 职场文书
2014保险公司个人工作总结
2014/12/09 职场文书
少年雷锋观后感
2015/06/10 职场文书
春风化雨观后感
2015/06/11 职场文书
学校中层领导培训心得体会
2016/01/11 职场文书
分析JVM源码之Thread.interrupt系统级别线程打断
2021/06/29 Java/Android
css中z-index: 0和z-index: auto的区别
2021/08/23 HTML / CSS
Python作用域和名称空间的详细介绍
2022/04/13 Python