编程 Python

python中文分词,使用结巴分词对python进行分词(实例讲解)

Posted in Python onNovember 14, 2017

在采集美女站时，需要对关键词进行分词，最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。

其基本实现原理有三点：

1.基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式，试图将句子最精确地切开，适合文本分析

2.全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数：

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python中文分词,使用结巴分词对python进行分词(实例讲解)

- Author -

yangjiyue

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python调用windows api锁定计算机示例

Apr 17 Python

Python设置Socket代理及实现远程摄像头控制的例子

Nov 13 Python

python去除空格和换行符的实现方法(推荐)

Jan 04 Python

python-opencv在有噪音的情况下提取图像的轮廓实例

Aug 30 Python

python3使用requests模块爬取页面内容的实战演练

Sep 25 Python

python+opencv实现的简单人脸识别代码示例

Nov 14 Python

Python实现的特征提取操作示例

Dec 03 Python

Python爬取视频(其实是一篇福利)过程解析

Aug 01 Python

Python中模块(Module)和包(Package）的区别详解

Aug 07 Python

python中time库的实例使用方法

Oct 31 Python

python中setuptools的作用是什么

Jun 19 Python

python opencv pytesseract 验证码识别的实现

Aug 28 Python

Python中import机制详解

Nov 14 #Python

AI人工智能 Python实现人机对话

Nov 13 #Python

Python编程实现蚁群算法详解

Nov 13 #Python

Python编程实现粒子群算法(PSO)详解

Nov 13 #Python

人工智能最火编程语言 Python大战Java!

Nov 13 #Python

Python随机生成均匀分布在单位圆内的点代码示例

Nov 13 #Python

python、java等哪一门编程语言适合人工智能？

Nov 13 #Python

You might like

PHP Ajax中文乱码问题解决方法

2009/02/27 PHP

PHP 中关于ord($str)&gt;0x80的详细说明

2012/09/23 PHP

php提示Warning:mysql_fetch_array() expects的解决方法

2014/12/16 PHP

php判断IP地址是否在多个IP段内

2020/08/18 PHP

javascript Error 对象错误处理

2008/05/18 Javascript

javascript 词法作用域和闭包分析说明

2010/08/12 Javascript

javascript中自定义对象的属性方法分享

2013/07/12 Javascript

让JavaScript的Alert弹出框失效的方法禁止弹出警告框

2014/09/03 Javascript

javascript中clipboardData对象用法详解

2015/05/13 Javascript

JS实现生成会变大变小的圆环实例

2015/08/05 Javascript

jquery实现的简单二级菜单效果代码

2015/09/22 Javascript

javascript中加var和不加var的区别你真的懂吗

2016/01/06 Javascript

JavaScript中style.left与offsetLeft的使用及区别详解

2016/06/08 Javascript

JS上传图片预览插件制作（兼容到IE6）

2016/08/07 Javascript

jQuery动态添加与删除tr行实例代码

2016/10/18 Javascript

jQuery Mobile漏洞会有跨站脚本攻击风险

2017/02/12 Javascript

Vue axios设置访问基础路径方法

2018/09/19 Javascript

详解vue 不同环境配置不同的打包命令

2019/04/07 Javascript

详解Vue中的scoped及穿透方法

2019/04/18 Javascript

Vue 实现登录界面验证码功能

2020/01/03 Javascript

分析在Python中何种情况下需要使用断言

2015/04/01 Python

Python作用域用法实例详解

2016/03/15 Python

python 时间戳与格式化时间的转化实现代码

2016/03/23 Python

深入理解python中的浅拷贝和深拷贝

2016/05/30 Python

详解appium+python 启动一个app步骤

2017/12/20 Python

python+opencv实现高斯平滑滤波

2020/07/21 Python

在pycharm中使用git版本管理以及同步github的方法

2019/01/16 Python

Python unittest框架操作实例解析

2020/04/13 Python

详解Django ORM引发的数据库N+1性能问题

2020/10/12 Python

15款Python编辑器的优缺点,别再问我“选什么编辑器”啦

2020/10/19 Python

python与idea的集成的实现

2020/11/20 Python

澳大利亚在线消费电子产品商店：TobyDeals

2020/01/05 全球购物

单位人事专员介绍信

2014/01/11 职场文书

2015年学校食堂工作总结

2015/04/22 职场文书

电影焦裕禄观后感

2015/06/09 职场文书

酒吧七夕情人节宣传语

2015/11/24 职场文书