Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python读写Redis数据库操作示例
Mar 18 Python
在Linux上安装Python的Flask框架和创建第一个app实例的教程
Mar 30 Python
python使用mailbox打印电子邮件的方法
Apr 30 Python
Python实现图片尺寸缩放脚本
Mar 10 Python
基于Python中求和函数sum的用法详解
Jun 28 Python
pygame游戏之旅 如何制作游戏障碍
Nov 20 Python
Django如何自定义model创建数据库索引的顺序
Jun 20 Python
Django 过滤器汇总及自定义过滤器使用详解
Jul 19 Python
python实现回旋矩阵方式(旋转矩阵)
Dec 04 Python
PyCharm License Activation激活码失效问题的解决方法(图文详解)
Mar 12 Python
python实例化对象的具体方法
Jun 17 Python
python 如何将office文件转换为PDF
Sep 22 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
Laravel Validator自定义错误返回提示消息并在前端展示
2019/05/09 PHP
php 策略模式原理与应用深入理解
2019/09/25 PHP
JavaScript 拾漏补遗
2009/12/27 Javascript
编写Js代码要注意的几条规则
2010/09/10 Javascript
JQuery之拖拽插件实现代码
2011/04/14 Javascript
EASYUI TREEGRID异步加载数据实现方法
2012/08/22 Javascript
js无刷新操作table的行和列
2014/03/27 Javascript
JS实现仿新浪微博发布内容为空时提示功能代码
2015/08/19 Javascript
分享经典的JavaScript开发技巧
2015/11/21 Javascript
jQuery中iframe的操作(点击按钮新增窗口)
2016/04/20 Javascript
HTML5开发Kinect体感游戏的实例应用
2017/09/18 Javascript
vue 每次渲染完页面后div的滚动条保持在最底部的方法
2018/03/17 Javascript
说说node中的可读流和可写流的区别
2018/06/01 Javascript
解决vue字符串换行问题(绝对管用)
2020/08/06 Javascript
[05:17]DOTA2誓师:今天我们在这里 明天TI4等我!
2014/03/26 DOTA
python中日期和时间格式化输出的方法小结
2015/03/19 Python
在python中按照特定顺序访问字典的方法详解
2018/12/14 Python
Python3字符串encode与decode的讲解
2019/04/02 Python
浅谈PyQt5 的帮助文档查找方法,可以查看每个类的方法
2019/06/25 Python
Python Django切换MySQL数据库实例详解
2019/07/16 Python
Python绘制组合图的示例
2020/09/18 Python
python 实现非极大值抑制算法(Non-maximum suppression, NMS)
2020/10/15 Python
利用HTML5 Canvas制作键盘及鼠标动画的实例分享
2016/03/15 HTML / CSS
Bogner美国官网:滑雪服中的”Dior”
2018/01/30 全球购物
Java的类可以定义为Protected或者Private得吗
2015/09/25 面试题
Laravel的加密解密与哈希实例讲解
2021/03/24 PHP
历史专业个人求职信分享
2013/12/20 职场文书
保密协议书范本
2014/04/22 职场文书
拒绝黄毒毒宣传标语
2014/06/26 职场文书
防火标语大全
2014/10/06 职场文书
高校教师个人总结
2015/02/10 职场文书
写给媳妇的检讨书
2015/05/06 职场文书
单位收入证明范本
2015/06/18 职场文书
2015年度女工工作总结
2015/10/22 职场文书
关于golang高并发的实现与注意事项说明
2021/05/08 Golang
redis数据一致性的实现示例
2022/03/18 Redis