python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python获取DLL和EXE文件版本号的方法
Mar 10 Python
Python中模块与包有相同名字的处理方法
May 05 Python
Python3使用turtle绘制超立方体图形示例
Jun 19 Python
Python3 SSH远程连接服务器的方法示例
Dec 29 Python
PyQt5实现类似别踩白块游戏
Jan 24 Python
python3+PyQt5 使用三种不同的简便项窗口部件显示数据的方法
Jun 17 Python
Python 微信爬虫完整实例【单线程与多线程】
Jul 06 Python
Python中的self用法详解
Aug 06 Python
Python 如何展开嵌套的序列
Aug 01 Python
Python GUI库Tkiner使用方法代码示例
Nov 27 Python
Python 全局空间和局部空间
Apr 06 Python
Python中Matplotlib的点、线形状、颜色以及绘制散点图
Apr 07 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
不使用php api函数实现数组的交换排序示例
2014/04/13 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
2017/09/17 PHP
js实现杯子倒水问题自动求解程序
2013/03/25 Javascript
javascript性能优化之事件委托实例详解
2015/12/12 Javascript
Move.js入门
2017/02/08 Javascript
使用requirejs模块化开发多页面一个入口js的使用方式
2017/06/14 Javascript
Node.js应用设置安全的沙箱环境
2018/04/23 Javascript
Vue 实现展开折叠效果的示例代码
2018/08/27 Javascript
ES6中let 和 const 的新特性
2018/09/03 Javascript
vue防止花括号{{}}闪烁v-text和v-html、v-cloak用法示例
2019/03/13 Javascript
layui 数据表格复选框实现单选功能的例子
2019/09/19 Javascript
[05:03]2018DOTA2亚洲邀请赛主赛事首日回顾
2018/04/04 DOTA
Python实现将不规范的英文名字首字母大写
2016/11/15 Python
Django admin实现图书管理系统菜鸟级教程完整实例
2017/12/12 Python
python爬虫爬取快手视频多线程下载功能
2018/02/28 Python
python中使用psutil查看内存占用的情况
2018/06/11 Python
详解python-图像处理(映射变换)
2019/03/22 Python
python线程的几种创建方式详解
2019/08/29 Python
Python笔记之工厂模式
2019/11/20 Python
python 实现兔子生兔子示例
2019/11/21 Python
Python json格式化打印实现过程解析
2020/07/21 Python
Python3爬虫里关于识别微博宫格验证码的知识点详解
2020/07/30 Python
Python连接Mysql进行增删改查的示例代码
2020/08/03 Python
Scrapy基于scrapy_redis实现分布式爬虫部署的示例
2020/09/29 Python
详解CSS3中Media Queries的相关使用
2015/07/17 HTML / CSS
6种非常炫酷的CSS3按钮边框动画特效
2016/03/16 HTML / CSS
浅谈Html5多线程开发之WebWorkers
2018/05/02 HTML / CSS
最便宜促销价格订机票:Airpaz(总部设在印尼,支持中文)
2018/11/13 全球购物
美国修容界大佬创建的个人美妆品牌:Kevyn Aucoin Beauty
2018/12/12 全球购物
元宵节主持词
2014/03/25 职场文书
银行竞聘演讲稿范文
2014/04/23 职场文书
淘宝好评语大全
2014/05/05 职场文书
放飞梦想演讲稿
2014/05/05 职场文书
学校课外活动总结
2014/05/08 职场文书
教育基金募捐倡议书
2014/05/14 职场文书
MySql数据库 查询时间序列间隔
2022/05/11 MySQL