Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python面向对象编程中的类和对象学习教程
Mar 30 Python
Django 前后台的数据传递的方法
Aug 08 Python
python实现Floyd算法
Jan 03 Python
Python实现的视频播放器功能完整示例
Feb 01 Python
Python pycharm 同时加载多个项目的方法
Jan 17 Python
用Python解数独的方法示例
Oct 24 Python
Python爬虫使用代理IP的实现
Oct 27 Python
python将图片转base64,实现前端显示
Jan 09 Python
Python异常处理机制结构实例解析
Jul 23 Python
Python 常用日期处理 -- calendar 与 dateutil 模块的使用
Sep 02 Python
几款好用的python工具库(小结)
Oct 20 Python
Python学习开发之图形用户界面详解
Aug 23 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
Windows下的PHP5.0安装配制详解
2006/09/05 PHP
PHP之变量、常量学习笔记
2008/03/27 PHP
php导出csv文件,可导出前导0实例代码
2016/11/16 PHP
提高网站信任度的技巧
2008/10/17 Javascript
js DataSet数据源处理代码
2010/03/29 Javascript
jquery multiSelect 多选下拉框
2010/07/09 Javascript
jquery动态添加删除一行数据示例
2014/06/12 Javascript
javascript事件冒泡和事件捕获详解
2015/05/26 Javascript
JavaScript简单实现鼠标移动切换图片的方法
2016/02/23 Javascript
Angular-Touch库用法示例
2016/12/22 Javascript
详解webpack 配合babel 将es6转成es5 超简单实例
2017/05/02 Javascript
JavaScript输入框字数实时统计更新
2017/06/17 Javascript
vue增删改查的简单操作
2017/07/15 Javascript
layui自定义ajax左侧三级菜单
2019/07/26 Javascript
微信公众号生成新浪短网址的实现(快速生成)
2019/08/18 Javascript
JS实现随机抽取三人
2019/11/06 Javascript
JS实现吸顶特效
2020/01/08 Javascript
JavaScript禁止右击保存图片,禁止拖拽图片的实现代码
2020/04/28 Javascript
[06:33]DOTA2亚洲邀请赛小组赛第二日 TOP10精彩集锦
2015/01/31 DOTA
[04:52]第二届DOTA2亚洲邀请赛主赛事第一天比赛集锦:OG娜迦海妖放大配合谜团大中3人
2017/04/02 DOTA
Python升级提示Tkinter模块找不到的解决方法
2014/08/22 Python
python实现串口自动触发工作的示例
2019/07/02 Python
Python3enumrate和range对比及示例详解
2019/07/13 Python
python计算波峰波谷值的方法(极值点)
2020/02/18 Python
使用Python将图片转正方形的两种方法实例代码详解
2020/04/29 Python
Python爬取豆瓣数据实现过程解析
2020/10/27 Python
学生发电厂实习自我鉴定
2013/09/22 职场文书
家长会学生家长演讲稿
2013/12/29 职场文书
小学国庆节活动方案策划书
2014/09/16 职场文书
工程催款通知书
2015/04/17 职场文书
签证工作证明模板
2015/06/15 职场文书
丧事酒宴答谢词
2015/09/30 职场文书
优秀员工演讲稿
2019/06/21 职场文书
z-index不起作用
2021/03/31 HTML / CSS
golang gopm get -g -v 无法获取第三方库的解决方案
2021/05/05 Golang
jQuery实现广告显示和隐藏动画
2021/07/04 jQuery