简述python四种分词工具,盘点哪个更好用?


Posted in Python onApril 13, 2021

大家好,我是安果!

分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词

Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库

1. jieba 分词

“结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典

github star:26k

代码示例

import jieba

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]

for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别:", ",".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

项目地址:

https://github.com/fxsjy/jieba

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具

它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型

相比通用分词工具,它的分词准确率更高 

github star:5.4k

代码示例

import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

项目地址:

https://github.com/lancopku/pkuseg-python

3. FoolNLTK 分词

基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典

GitHub  star: 1.6k

代码示例

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

项目地址:

https://github.com/rockyzhengwu/FoolNLTK

4. THULAC

THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包

具有词性标注功能,能分析出某个词是名词还是动词或者形容词

github star:1.5k

代码示例

 import thulac  

 thu1 = thulac.thulac()  #默认模式
 text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
 print(text) # 我_r 爱_v 北京_ns 天安门_ns
 代码示例2
 thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
 thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

项目地址:

https://github.com/thunlp/THULAC-Python

目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语

你在用什么分词工具,欢迎留下你的意见

以上就是简述python四种分词工具,盘点哪个更好用?的详细内容,更多关于python 分词工具的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python使用range函数计算一组数和的方法
May 07 Python
浅谈python装饰器探究与参数的领取
Dec 01 Python
Python实现matplotlib显示中文的方法详解
Feb 06 Python
python实现远程通过网络邮件控制计算机重启或关机
Feb 22 Python
python使用PIL给图片添加文字生成海报示例
Aug 17 Python
tensorflow实现简单逻辑回归
Sep 07 Python
Python正则表达式匹配和提取IP地址
Jun 06 Python
python else语句在循环中的运用详解
Jul 06 Python
详解Python中list[::-1]的几种用法
Nov 16 Python
Autopep8的使用(python自动编排工具)
Mar 02 Python
python 爬取天气网卫星图片
Jun 07 Python
宝塔更新Python及Flask项目的部署
Apr 11 Python
python自动化调用百度api解决验证码
利用Python网络爬虫爬取各大音乐评论的代码
用Python制作灯光秀短视频的思路详解
python实现socket简单通信的示例代码
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
python用字节处理文件实例讲解
Apr 13 #Python
Python中相见恨晚的技巧
Apr 13 #Python
You might like
PHP安全配置
2006/12/06 PHP
深入解析Session是否必须依赖Cookie
2013/08/02 PHP
php无限遍历文件夹示例分享
2014/03/04 PHP
php统计文章排行示例
2014/03/04 PHP
PHP 获取ip地址代码汇总
2015/07/05 PHP
由浅到深了解JavaScript类
2006/09/08 Javascript
js返回上一页并刷新代码整理
2012/12/21 Javascript
jQuery 设置 CSS 属性示例介绍
2014/01/16 Javascript
JavaScript新窗口与子窗口传值详解
2014/02/11 Javascript
js判断手机和pc端选择不同执行事件的方法
2015/01/30 Javascript
jQuery根据用户电脑是mac还是pc加载对应样式的方法
2015/06/26 Javascript
Adapter适配器模式在JavaScript设计模式编程中的运用分析
2016/05/18 Javascript
javascript 广告移动特效的实现代码
2016/06/25 Javascript
Vue源码学习之初始化模块init.js解析
2017/11/02 Javascript
详解JS取出两个数组中的不同或相同元素
2019/03/20 Javascript
JavaScript进制转换实现方法解析
2020/01/18 Javascript
Vue实现穿梭框效果
2020/09/30 Javascript
Python 分析Nginx访问日志并保存到MySQL数据库实例
2014/03/13 Python
深入理解Python中的元类(metaclass)
2015/02/14 Python
python实现批量修改文件名代码
2017/09/10 Python
用Django写天气预报查询网站
2018/10/21 Python
python如何实现一个刷网页小程序
2018/11/27 Python
python使用PIL实现多张图片垂直合并
2019/01/15 Python
Python简单I/O操作示例
2019/03/18 Python
Django框架HttpRequest对象用法实例分析
2019/11/01 Python
Python Websocket服务端通信的使用示例
2020/02/25 Python
python3发送request请求及查看返回结果实例
2020/04/30 Python
windows下python 3.9 Numpy scipy和matlabplot的安装教程详解
2020/11/28 Python
魔幻般冒泡背景的CSS3按钮动画
2016/02/27 HTML / CSS
工地门卫岗位职责
2013/12/30 职场文书
超市活动计划书
2014/04/24 职场文书
党的生日活动方案
2014/08/15 职场文书
办理房产证委托书
2014/09/18 职场文书
交通事故赔偿起诉书
2015/05/20 职场文书
MySQL通过binlog恢复数据
2021/05/27 MySQL
Log4j.properties配置及其使用
2021/08/02 Java/Android