简述python四种分词工具,盘点哪个更好用?


Posted in Python onApril 13, 2021

大家好,我是安果!

分词在自然语言处理中有着常见的场景,比如从一篇文章自动提取关键词就需要用到分词工具,中文搜索领域同样离不开分词

Python 中有很多开源的分词工具,下面给大家介绍几款常见的分词依赖库

1. jieba 分词

“结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件,支持多种分词模式,支持自定义词典

github star:26k

代码示例

import jieba

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]

for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别:", ",".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出:

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

项目地址:

https://github.com/fxsjy/jieba

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具

它的特点是支持多领域分词,目前支持新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型,用户可以自由地选择不同的模型

相比通用分词工具,它的分词准确率更高 

github star:5.4k

代码示例

import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

项目地址:

https://github.com/lancopku/pkuseg-python

3. FoolNLTK 分词

基于 BiLSTM 模型训练而成,据说可能是最准的开源中文分词,同样支持用户自定义词典

GitHub  star: 1.6k

代码示例

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

项目地址:

https://github.com/rockyzhengwu/FoolNLTK

4. THULAC

THULAC 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包

具有词性标注功能,能分析出某个词是名词还是动词或者形容词

github star:1.5k

代码示例

 import thulac  

 thu1 = thulac.thulac()  #默认模式
 text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
 print(text) # 我_r 爱_v 北京_ns 天安门_ns
 代码示例2
 thu1 = thulac.thulac(seg_only=True)  #只进行分词,不进行词性标注
 thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词,输出到output.txt

项目地址:

https://github.com/thunlp/THULAC-Python

目前我在用的还是结巴分词,配合用户自定义词典,解决常见的网络词语

你在用什么分词工具,欢迎留下你的意见

以上就是简述python四种分词工具,盘点哪个更好用?的详细内容,更多关于python 分词工具的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
浅谈python中scipy.misc.logsumexp函数的运用场景
Jun 23 Python
Python三级目录展示的实现方法
Sep 28 Python
Django1.7+python 2.78+pycharm配置mysql数据库
Oct 09 Python
Python爬虫获取整个站点中的所有外部链接代码示例
Dec 26 Python
浅析python参数的知识点
Dec 10 Python
pymongo中group by的操作方法教程
Mar 22 Python
Django admin model 汉化显示文字的实现方法
Aug 12 Python
python机器学习库xgboost的使用
Jan 20 Python
关于Keras模型可视化教程及关键问题的解决
Jan 24 Python
python爬虫开发之selenium模块详细使用方法与实例全解
Mar 09 Python
Python实现发票自动校核微信机器人的方法
May 22 Python
如何在Python中创建二叉树
Mar 30 Python
python自动化调用百度api解决验证码
利用Python网络爬虫爬取各大音乐评论的代码
用Python制作灯光秀短视频的思路详解
python实现socket简单通信的示例代码
使用Selenium实现微博爬虫(预登录、展开全文、翻页)
python用字节处理文件实例讲解
Apr 13 #Python
Python中相见恨晚的技巧
Apr 13 #Python
You might like
php下使用无限生命期Session的方法
2007/03/16 PHP
linux下实现定时执行php脚本
2015/02/13 PHP
高质量PHP代码的50个实用技巧必备(上)
2016/01/22 PHP
php实现异步将远程链接上内容(图片或内容)写到本地的方法
2016/11/30 PHP
php 基础函数
2017/02/10 PHP
php实现自定义中奖项数和概率的抽奖函数示例
2017/05/26 PHP
详谈PHP中public,private,protected,abstract等关键字的用法
2017/12/31 PHP
Mac系统下搭建Nginx+php-fpm实例讲解
2020/12/15 PHP
Autocomplete Textbox Example javascript实现自动完成成功
2007/08/17 Javascript
关于img的href和src取变量及赋值的方法
2014/04/28 Javascript
在JavaScript中操作时间之getYear()方法的使用教程
2015/06/11 Javascript
Document.body.scrollTop的值总为零的快速解决办法
2016/06/09 Javascript
canvas实现弧形可拖动进度条效果
2017/05/11 Javascript
angularjs实现上拉加载和下拉刷新数据功能
2017/06/12 Javascript
在ABP框架中使用BootstrapTable组件的方法
2017/07/31 Javascript
vue刷新页面时去闪烁提升用户体验效果的实现方法
2018/12/10 Javascript
js实现踩五彩块游戏
2020/02/08 Javascript
jquery检测上传文件大小示例
2020/04/26 jQuery
[05:00]TI9战队采访 - Royal Never Give Up
2019/08/20 DOTA
Python中__call__用法实例
2014/08/29 Python
Django框架中的对象列表视图使用示例
2015/07/21 Python
使用apidoc管理RESTful风格Flask项目接口文档方法
2018/02/07 Python
python实现事件驱动
2018/11/21 Python
详解python3 + Scrapy爬虫学习之创建项目
2019/04/12 Python
Python 二叉树的层序建立与三种遍历实现详解
2019/07/29 Python
django 利用Q对象与F对象进行查询的实现
2020/05/15 Python
css3 pointer-events 介绍详解
2017/09/18 HTML / CSS
IWOOT美国:新奇的小玩意
2018/04/27 全球购物
Charles&Keith美国官方网站:新加坡快时尚鞋类和配饰零售商
2019/11/27 全球购物
安全协议书范本
2014/04/21 职场文书
警示教育活动总结
2014/05/05 职场文书
领导干部作风整顿剖析材料
2014/10/11 职场文书
德能勤绩工作总结
2015/08/11 职场文书
Java如何实现树的同构?
2021/06/22 Java/Android
Dashboard管理Kubernetes集群与API访问配置
2022/04/01 Servers
MYSQL优化之数据表碎片整理详解
2022/04/03 MySQL