Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python制作一个桌面便签软件
Aug 09 Python
Python中利用Scipy包的SIFT方法进行图片识别的实例教程
Jun 03 Python
windows下python安装paramiko模块和pycrypto模块(简单三步)
Jul 06 Python
python numpy 显示图像阵列的实例
Jul 02 Python
Python中调用其他程序的方式详解
Aug 06 Python
python3读取autocad图形文件.py实例
Jun 05 Python
python3.8动态人脸识别的实现示例
Sep 21 Python
Python3.9.1中使用match方法详解
Feb 08 Python
Python爬虫实战之爬取携程评论
Jun 02 Python
Python实现查询剪贴板自动匹配信息的思路详解
Jul 09 Python
Pandas 数据编码的十种方法
Apr 20 Python
python turtle绘图
May 04 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
php下过滤HTML代码的函数
2007/12/10 PHP
php使用substr()和strpos()联合查找字符串中某一特定字符的方法
2015/05/12 PHP
IIS 7.5 asp Session超时时间设置方法
2017/04/17 PHP
PHP框架实现WebSocket在线聊天通讯系统
2019/11/21 PHP
JavaScript 高级篇之闭包、模拟类,继承(五)
2012/04/07 Javascript
NodeJS学习笔记之MongoDB模块
2015/01/13 NodeJs
JS制作简单的三级联动
2015/03/18 Javascript
Bootstrap开发实战之第一次接触Bootstrap
2016/06/02 Javascript
jQuery实现下拉框多选 jquery-multiselect 的实例代码
2016/07/14 Javascript
Angular 页面跳转时传参问题
2016/08/01 Javascript
JavaScript仿网易选项卡制作代码
2016/10/06 Javascript
详解vue组件化开发-vuex状态管理库
2017/04/10 Javascript
JavaScript中正则表达式判断匹配规则及常用方法
2017/08/03 Javascript
vue的一个分页组件的示例代码
2017/12/25 Javascript
jQuery动态生成的元素绑定事件操作实例分析
2019/05/04 jQuery
简单了解JavaScript弹窗实现代码
2020/05/07 Javascript
详解node.js 事件循环
2020/07/22 Javascript
利用JavaScript模拟京东按键输入功能
2020/12/01 Javascript
[02:15]2014DOTA2国际邀请赛 赛后退役选手回顾
2014/08/01 DOTA
[54:26]完美世界DOTA2联赛PWL S3 Forest vs Rebirth 第一场 12.10
2020/12/12 DOTA
python调用Moxa PCOMM Lite通过串口Ymodem协议实现发送文件
2014/08/15 Python
Python2.x版本中基本的中文编码问题解决
2015/10/12 Python
基于python代码实现简易滤除数字的方法
2018/07/17 Python
基于python3生成标签云代码解析
2020/02/18 Python
Anaconda的安装及其环境变量的配置详解
2020/04/22 Python
Python importlib模块重载使用方法详解
2020/10/13 Python
基于canvas的骨骼动画的示例代码
2018/06/12 HTML / CSS
如何让pre和textarea等HTML元素去掉滚动条自动换行自适应文本内容高度
2019/08/01 HTML / CSS
Delphi工程师笔试题
2013/09/21 面试题
思想汇报格式
2014/01/05 职场文书
大学生素质拓展活动方案
2014/02/11 职场文书
优秀团队获奖感言
2014/02/19 职场文书
党员群众路线教育实践活动剖析材料
2014/10/10 职场文书
论群众路线学习笔记
2014/11/06 职场文书
创业项目大全(适合在家创业的项目)
2019/08/15 职场文书
SQL bool盲注和时间盲注详解
2022/07/23 SQL Server