简述python四种分词工具,盘点哪个更好用?


Posted in Python onApril 13, 2021

大家好,我是安果!

分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词

Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库

1. jieba 分词

“结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典

github star:26k

代码示例

import jieba

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]

for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别:", ",".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

项目地址:

https://github.com/fxsjy/jieba

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具

它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型

相比通用分词工具,它的分词准确率更高 

github star:5.4k

代码示例

import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

项目地址:

https://github.com/lancopku/pkuseg-python

3. FoolNLTK 分词

基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典

GitHub  star: 1.6k

代码示例

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

项目地址:

https://github.com/rockyzhengwu/FoolNLTK

4. THULAC

THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包

具有词性标注功能,能分析出某个词是名词还是动词或者形容词

github star:1.5k

代码示例

 import thulac  

 thu1 = thulac.thulac()  #默认模式
 text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
 print(text) # 我_r 爱_v 北京_ns 天安门_ns
 代码示例2
 thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
 thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

项目地址:

https://github.com/thunlp/THULAC-Python

目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语

你在用什么分词工具,欢迎留下你的意见

以上就是简述python四种分词工具,盘点哪个更好用?的详细内容,更多关于python 分词工具的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python k-近邻算法实例分享
Jun 11 Python
python DataFrame 修改列的顺序实例
Apr 10 Python
Python3正则匹配re.split,re.finditer及re.findall函数用法详解
Jun 11 Python
Pycharm以root权限运行脚本的方法
Jan 19 Python
利用python在excel里面直接使用sql函数的方法
Feb 08 Python
Python selenium根据class定位页面元素的方法
Feb 26 Python
python2.7实现复制大量文件及文件夹资料
Aug 31 Python
pytorch中nn.Conv1d的用法详解
Dec 31 Python
Tensorflow中tf.ConfigProto()的用法详解
Feb 06 Python
开启Django博客的RSS功能的实现方法
Feb 17 Python
Python3 shutil(高级文件操作模块)实例用法总结
Feb 19 Python
Python+PyQt5+MySQL实现天气管理系统
Jun 16 Python
python自动化调用百度api解决验证码
利用Python网络爬虫爬取各大音乐评论的代码
用Python制作灯光秀短视频的思路详解
python实现socket简单通信的示例代码
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
python用字节处理文件实例讲解
Apr 13 #Python
Python中相见恨晚的技巧
Apr 13 #Python
You might like
解析thinkphp基本配置 convention.php
2013/06/18 PHP
Laravel 5 框架入门(二)构建 Pages 的管理功能
2015/04/09 PHP
PHP中使用jQuery+Ajax实现分页查询多功能操作(示例讲解)
2017/09/17 PHP
PHP设计模式之模板方法模式实例浅析
2018/12/20 PHP
Javascript this 的一些学习总结
2012/08/02 Javascript
jQuery实现表头固定效果的实例代码
2013/05/24 Javascript
jQuery使用CSS()方法给指定元素同时设置多个样式
2015/03/26 Javascript
简介JavaScript中的unshift()方法的使用
2015/06/09 Javascript
jQuery Validate验证框架经典大全
2015/09/23 Javascript
jQuery实现指定区域外单击关闭指定层的方法【经典】
2016/06/22 Javascript
jQuery实现可以编辑的表格实例详解【附demo源码下载】
2016/07/09 Javascript
jQuery Ajax 异步加载显示等待效果代码分享
2016/08/01 Javascript
bootstrap下拉菜单使用方法解析
2017/01/13 Javascript
JS得到当前时间的方法示例
2017/03/24 Javascript
jQuery实现简单漂亮的Nav导航菜单效果
2017/03/29 jQuery
JavaScript中一些特殊的字符运算
2017/08/17 Javascript
layui使用数据表格实现购物车功能
2019/07/26 Javascript
python实现通过shelve修改对象实例
2014/09/26 Python
Python使用sorted排序的方法小结
2017/07/28 Python
利用numpy实现一、二维数组的拼接简单代码示例
2017/12/15 Python
django框架实现模板中获取request 的各种信息示例
2019/07/01 Python
使用python画社交网络图实例代码
2019/07/10 Python
Python随机数函数代码实例解析
2020/02/09 Python
谈谈Python:为什么类中的私有属性可以在外部赋值并访问
2020/03/05 Python
html5中 media(播放器)的api使用指南
2014/12/26 HTML / CSS
悦木之源美国官网:Origins美国
2016/08/01 全球购物
澳大利亚新奇小玩意网站:Yellow Octopus
2017/12/28 全球购物
碧欧泉法国官网:Biotherm法国
2019/10/23 全球购物
和平主题的演讲稿
2014/01/12 职场文书
教师节演讲稿
2014/05/06 职场文书
人民调解员培训方案
2014/06/05 职场文书
刑事辩护授权委托书格式
2014/10/13 职场文书
2014年员工工作总结范文
2014/11/18 职场文书
英文产品推荐信
2015/03/27 职场文书
呐喊读书笔记
2015/06/30 职场文书
关于感恩的歌曲整理(8首)
2019/08/14 职场文书