Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python局部赋值的规则
Mar 07 Python
详解python中的 is 操作符
Dec 26 Python
DataFrame中的object转换成float的方法
Apr 10 Python
详解python之协程gevent模块
Jun 14 Python
Python设计模式之迭代器模式原理与用法实例分析
Jan 10 Python
Python字符串逆序输出的实例讲解
Feb 16 Python
python实现桌面托盘气泡提示
Jul 29 Python
Python搭建代理IP池实现接口设置与整体调度
Oct 27 Python
使用 Python ssh 远程登陆服务器的最佳方案
Mar 06 Python
Python列表切片常用操作实例解析
Mar 10 Python
使用npy转image图像并保存的实例
Jul 01 Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP.MVC的模板标签系统(五)
2006/09/05 PHP
Win2000+Apache+MySql+PHP4+PERL安装使用小结
2006/10/09 PHP
php csv操作类代码
2009/12/14 PHP
PHP编码规范的深入探讨
2013/06/06 PHP
FireFox中textNode分片的问题
2007/04/10 Javascript
JQuery文字列表向上滚动的代码
2013/11/13 Javascript
给事件响应函数传参数的四种方式小结
2013/12/05 Javascript
JavaScript实现上下浮动的窗口效果代码
2015/10/12 Javascript
基于javascript实现全屏漂浮广告
2016/03/31 Javascript
JS 对象(Object)和字符串(String)互转方法
2016/05/20 Javascript
微信小程序 LOL 英雄介绍开发实例
2016/09/30 Javascript
Bootstrap面板(Panels)的简单实现代码
2017/03/17 Javascript
全面解析jQuery中的$(window)与$(document)的用法区别
2017/08/15 jQuery
Angular实现图片裁剪工具ngImgCrop实践
2017/08/17 Javascript
bootstrap时间控件daterangepicker使用方法及各种小bug修复
2017/10/25 Javascript
jQuery实现带右侧索引功能的通讯录示例【附源码下载】
2018/04/17 jQuery
通过函数作用域和块级作用域看javascript的作用域链
2018/08/05 Javascript
使用 Vue cli 3.0 构建自定义组件库的方法
2019/04/30 Javascript
jQuery实现鼠标滑动切换图片
2020/05/27 jQuery
js实现星星海特效的示例
2020/09/28 Javascript
Django利用cookie保存用户登录信息的简单实现方法
2019/05/27 Python
Python 的字典(Dict)是如何存储的
2019/07/05 Python
python中调试或排错的五种方法示例
2019/09/12 Python
Python Pandas对缺失值的处理方法
2019/09/27 Python
Pytorch 中retain_graph的用法详解
2020/01/07 Python
python3 使用ssh隧道连接mysql的操作
2020/12/05 Python
基于Python中Remove函数的用法讨论
2020/12/11 Python
css3实现input输入框颜色渐变发光效果代码
2014/04/02 HTML / CSS
加拿大最大的相机店:Henry’s
2017/05/17 全球购物
英国家电购物网站:Sonic Direct
2019/03/26 全球购物
北美最大的参茸药食商城:德成行
2020/12/06 全球购物
高中生期中考试失利检讨书
2014/10/23 职场文书
三提三创主题教育活动查摆整改措施
2014/10/25 职场文书
亲属关系公证书样本
2015/01/23 职场文书
解决goland 导入项目后import里的包报红问题
2021/05/06 Golang
MySQL派生表联表查询实战过程
2022/03/20 MySQL