Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python3实现的画图及加载图片动画效果示例
Jan 19 Python
Numpy 将二维图像矩阵转换为一维向量的方法
Jun 05 Python
修复 Django migration 时遇到的问题解决
Jun 14 Python
Python多线程原理与用法详解
Aug 20 Python
Python中numpy模块常见用法demo实例小结
Mar 16 Python
python binascii 进制转换实例
Jun 12 Python
用python生成(动态彩色)二维码的方法(使用myqr库实现)
Jun 24 Python
Python中使用__new__实现单例模式并解析
Jun 25 Python
python3 selenium自动化 下拉框定位的例子
Aug 23 Python
Win下PyInstaller 安装和使用教程
Dec 25 Python
pytorch实现建立自己的数据集(以mnist为例)
Jan 18 Python
Python安装第三方库攻略(pip和Anaconda)
Oct 15 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP的几个常用数字判断函数代码
2012/04/24 PHP
PHP获取数组中某元素的位置及array_keys函数应用
2013/01/29 PHP
PHP基础之运算符的使用方法
2013/04/28 PHP
PHP的mysqli_query参数MYSQLI_STORE_RESULT和MYSQLI_USE_RESULT的区别
2014/09/29 PHP
php curl 模拟登录并获取数据实例详解
2016/12/22 PHP
php自定义排序uasort函数示例【二维数组按指定键值排序】
2019/06/19 PHP
javascript(jquery)利用函数修改全局变量的代码
2009/11/02 Javascript
jQuery学习3:操作元素属性和特性
2010/02/07 Javascript
调试Node.JS的辅助工具(NodeWatcher)
2012/01/04 Javascript
js toFixed()方法的重写实现精度的统一
2014/03/06 Javascript
JS中作用域和变量提升(hoisting)的深入理解
2016/10/31 Javascript
JavaScript中三种常见的排序方法
2017/02/24 Javascript
angular bootstrap timepicker TypeError提示怎么办
2017/06/13 Javascript
脚手架vue-cli工程webpack的作用和特点
2018/09/29 Javascript
jQuery实现当拉动滚动条到底部加载数据的方法分析
2019/01/24 jQuery
微信小程序事件 bindtap bindinput代码实例
2019/08/26 Javascript
Angular value与ngValue区别详解
2019/11/27 Javascript
js+css实现扇形导航效果
2020/08/18 Javascript
[02:43]2018DOTA2亚洲邀请赛主赛事首日TOP5
2018/04/04 DOTA
Python with语句上下文管理器两种实现方法分析
2018/02/09 Python
python实现数据库跨服务器迁移
2018/04/12 Python
pycharm 解除默认unittest模式的方法
2018/11/30 Python
python匿名函数用法实例分析
2019/08/03 Python
django之导入并执行自定义的函数模块图解
2020/04/01 Python
美国值得信赖的婚恋交友网站:eHarmony
2018/10/04 全球购物
Allsole美国/加拿大:英国一家专门出售品牌鞋子的网站
2018/10/21 全球购物
中东奢侈品市场:Coveti
2019/05/12 全球购物
飞利信loadrunner和软件测试笔试题
2012/09/22 面试题
销售自我评价
2013/10/22 职场文书
企业统计员岗位职责
2013/12/13 职场文书
社团活动策划书范文
2014/01/09 职场文书
大型营销活动计划书
2014/04/28 职场文书
宣传标语大全
2014/07/01 职场文书
公司委托书格式
2014/08/01 职场文书
银行授权委托书范本
2014/10/04 职场文书
2015年乡镇组织委员工作总结
2015/10/23 职场文书