简述python四种分词工具,盘点哪个更好用?


Posted in Python onApril 13, 2021

大家好,我是安果!

分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词

Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库

1. jieba 分词

“结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典

github star:26k

代码示例

import jieba

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]

for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别:", ",".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

项目地址:

https://github.com/fxsjy/jieba

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具

它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型

相比通用分词工具,它的分词准确率更高 

github star:5.4k

代码示例

import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

项目地址:

https://github.com/lancopku/pkuseg-python

3. FoolNLTK 分词

基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典

GitHub  star: 1.6k

代码示例

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

项目地址:

https://github.com/rockyzhengwu/FoolNLTK

4. THULAC

THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包

具有词性标注功能,能分析出某个词是名词还是动词或者形容词

github star:1.5k

代码示例

 import thulac  

 thu1 = thulac.thulac()  #默认模式
 text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
 print(text) # 我_r 爱_v 北京_ns 天安门_ns
 代码示例2
 thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
 thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

项目地址:

https://github.com/thunlp/THULAC-Python

目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语

你在用什么分词工具,欢迎留下你的意见

以上就是简述python四种分词工具,盘点哪个更好用?的详细内容,更多关于python 分词工具的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中解析JSON并同时进行自定义编码处理实例
Feb 08 Python
Python常用内置函数总结
Feb 08 Python
用Python展示动态规则法用以解决重叠子问题的示例
Apr 02 Python
在Python中操作文件之seek()方法的使用教程
May 24 Python
Django Highcharts制作图表
Aug 27 Python
老生常谈python中的重载
Nov 11 Python
python实现动态数组的示例代码
Jul 15 Python
python编写实现抽奖器
Sep 10 Python
python利用faker库批量生成测试数据
Oct 15 Python
next在python中返回迭代器的实例方法
Dec 15 Python
python使用pygame创建精灵Sprite
Apr 06 Python
解决python存数据库速度太慢的问题
Apr 23 Python
python自动化调用百度api解决验证码
利用Python网络爬虫爬取各大音乐评论的代码
用Python制作灯光秀短视频的思路详解
python实现socket简单通信的示例代码
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
python用字节处理文件实例讲解
Apr 13 #Python
Python中相见恨晚的技巧
Apr 13 #Python
You might like
php封装的连接Mysql类及用法分析
2015/12/10 PHP
yii2实现根据时间搜索的方法
2016/05/25 PHP
ECMAScript 创建自己的js类库
2012/11/22 Javascript
js 得到文件后缀(通过正则实现)
2013/07/08 Javascript
javascript获取checkbox复选框获取选中的选项
2014/08/12 Javascript
浅析BootStrap模态框的使用(经典)
2016/04/29 Javascript
微信小程序 Video API实例详解
2016/10/02 Javascript
jQuery实现的手风琴侧边菜单效果
2017/03/29 jQuery
详解微信小程序 相对定位和绝对定位
2017/05/11 Javascript
bootstrap+jquery项目引入文件报错的解决方法
2018/01/22 jQuery
JS实现简单获取最近7天和最近3天日期的方法
2018/04/18 Javascript
Vue + better-scroll 实现移动端字母索引导航功能
2018/05/07 Javascript
基于vue中keep-alive缓存问题的解决方法
2018/09/21 Javascript
js前端面试之同步与异步问题详解
2019/04/03 Javascript
Vue 开发必须知道的36个技巧(小结)
2019/10/09 Javascript
[03:07]2015国际邀请赛选手档案EHOME.rOtK 是什么让他落泪?
2015/07/31 DOTA
[00:19]CN DOTA NEVER DIE!VG夺冠rOtK接受采访
2019/12/23 DOTA
Python numpy实现二维数组和一维数组拼接的方法
2018/06/05 Python
python每5分钟从kafka中提取数据的例子
2019/12/23 Python
CSS3+js实现简单的时钟特效
2015/03/18 HTML / CSS
美国玛丽莎收藏奢华时尚商店:Marissa Collections
2016/11/21 全球购物
Hotels.com越南:酒店预订
2019/10/29 全球购物
简单说说tomcat的配置
2013/05/28 面试题
请解释流与文件有什么不同
2016/07/29 面试题
应届生的求职推荐信范文
2013/11/30 职场文书
毕业生个人求职信范例分享
2013/12/17 职场文书
小区物业门卫岗位职责
2014/04/10 职场文书
欢迎领导检查标语
2014/06/27 职场文书
小学校长汇报材料
2014/08/20 职场文书
党员评议个人总结
2014/10/20 职场文书
2015年食堂工作总结报告
2015/04/23 职场文书
上班迟到检讨书范文
2015/05/06 职场文书
三八妇女节致辞
2015/07/31 职场文书
2016年寒假政治学习心得体会
2015/10/09 职场文书
传单、海报早OUT了,另类传单营销方案送给你!
2019/07/15 职场文书
Logback 使用TurboFilter实现日志级别等内容的动态修改操作
2021/08/30 Java/Android