python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python的文件操作方法汇总
Nov 10 Python
python3.4.3下逐行读入txt文本并去重的方法
Apr 29 Python
使用TensorFlow实现SVM
Sep 06 Python
Python面向对象类编写细节分析【类,方法,继承,超类,接口等】
Jan 05 Python
详解python中自定义超时异常的几种方法
Jul 29 Python
python中hasattr()、getattr()、setattr()函数的使用
Aug 16 Python
详解python中的生成器、迭代器、闭包、装饰器
Aug 22 Python
Python 私有化操作实例分析
Nov 21 Python
如何解决tensorflow恢复模型的特定值时出错
Feb 06 Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 Python
pyspark对Mysql数据库进行读写的实现
Dec 30 Python
python的scipy.stats模块中正态分布常用函数总结
Feb 19 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
星际原理概述
2020/03/04 星际争霸
php查看session内容的函数
2008/08/27 PHP
PHP文件读取功能的应用实例
2015/05/08 PHP
PHP实现表单提交数据的验证处理功能【防SQL注入和XSS攻击等】
2017/07/21 PHP
javascript 基础篇1 什么是js 建立第一个js程序
2012/03/14 Javascript
getComputedStyle与currentStyle获取样式(style/class)
2013/03/19 Javascript
JavaScript instanceof 的使用方法示例介绍
2013/10/23 Javascript
浅谈vue项目优化之页面的按需加载(vue+webpack)
2017/12/11 Javascript
JS动态插入脚本和插入引用外部链接脚本的方法
2018/05/21 Javascript
vue-cli3.0 环境变量与模式配置方法
2018/11/08 Javascript
vue+webpack 更换主题N种方案优劣分析
2019/10/28 Javascript
openLayer4实现动态改变标注图标
2020/08/17 Javascript
js实现批量删除功能
2020/08/27 Javascript
javascript实现点击按钮切换轮播图功能
2020/09/23 Javascript
通过实例解析js可枚举属性与不可枚举属性
2020/12/02 Javascript
[02:32]DOTA2亚洲邀请赛 VG战队巡礼
2015/02/03 DOTA
跟老齐学Python之有容乃大的list(3)
2014/09/15 Python
Python内置数据结构与操作符的练习题集锦
2016/07/01 Python
Python使用Srapy框架爬虫模拟登陆并抓取知乎内容
2016/07/02 Python
python 禁止函数修改列表的实现方法
2017/08/03 Python
python遍历序列enumerate函数浅析
2017/10/17 Python
Python多线程threading和multiprocessing模块实例解析
2018/01/29 Python
Python实现合并同一个文件夹下所有txt文件的方法示例
2018/04/26 Python
python 协程 gevent原理与用法分析
2019/11/22 Python
台湾租车首选品牌:IWS艾维士租车
2019/05/03 全球购物
Unineed旗下时尚轻奢网站:FABHunt
2019/05/13 全球购物
焊接专业毕业生求职信
2013/10/01 职场文书
党员干部承诺书
2014/03/25 职场文书
应聘护士求职信
2014/07/21 职场文书
思想作风整顿个人剖析材料
2014/10/06 职场文书
无罪辩护词范文
2015/05/21 职场文书
酒店厨房管理制度
2015/08/06 职场文书
python数据库批量插入数据的实现(executemany的使用)
2021/04/30 Python
js不常见操作运算符总结
2021/11/20 Javascript
详解Flutter网络请求Dio库的使用及封装
2022/04/14 Java/Android
Java工作中实用的代码优化技巧分享
2022/04/21 Java/Android