Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python实现字符串和日期相互转换的方法
May 13 Python
python实现决策树分类算法
Dec 21 Python
python实现pdf转换成word/txt纯文本文件
Jun 07 Python
Python爬虫框架scrapy实现的文件下载功能示例
Aug 04 Python
python实现flappy bird游戏
Dec 24 Python
Python当中的array数组对象实例详解
Jun 12 Python
用Python实现校园通知更新提醒功能
Nov 23 Python
PyQt5实现登录页面
May 30 Python
Django中Aggregation聚合的基本使用方法
Jul 09 Python
Python 实现简单的客户端认证
Jul 29 Python
python 实现aes256加密
Nov 27 Python
Python制作表白爱心合集
Jan 22 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
php htmlentities()函数的定义和用法
2016/05/13 PHP
PHP的PDO大对象(LOBs)
2019/01/27 PHP
详解关于php的xdebug配置(编辑器vscode)
2019/01/29 PHP
Swoole扩展的6种模式深入详解
2021/03/04 PHP
javascript 读取xml,写入xml 实现代码
2009/07/10 Javascript
jquery.validate分组验证代码
2011/03/17 Javascript
jquery的ajax()函数传值中文乱码解决方法介绍
2012/11/08 Javascript
基于JavaScript实现图片剪切效果
2017/03/07 Javascript
基于angular6.0实现的一个组件懒加载功能示例
2018/04/12 Javascript
详解ES6 系列之异步处理实战
2018/10/26 Javascript
jquery 验证用户名是否重复代码实例
2019/05/14 jQuery
vue实现淘宝购物车功能
2020/04/20 Javascript
JavaScript实现雪花飘落效果
2020/12/27 Javascript
[42:56]VGJ.S vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
python实现将元祖转换成数组的方法
2015/05/04 Python
python使用range函数计算一组数和的方法
2015/05/07 Python
深入解析Python中函数的参数与作用域
2016/03/20 Python
python 实时遍历日志文件
2016/04/12 Python
python批量下载抖音视频
2019/06/17 Python
OpenCV 边缘检测
2019/07/10 Python
Pycharm内置终端及远程SSH工具的使用教程图文详解
2020/03/19 Python
Book Depository澳大利亚:世界领先的专业在线书店之一
2018/12/27 全球购物
英国现代、当代和设计师家具店:Furntastic
2020/07/18 全球购物
怎样比较两个类型为String的字符串
2016/08/17 面试题
vue项目实现分页效果
2021/03/24 Vue.js
服务中心夜班服务员岗位职责
2013/11/27 职场文书
阳光体育活动方案
2014/02/16 职场文书
公司联欢晚会主持词
2014/03/22 职场文书
安全承诺书范文
2014/03/26 职场文书
校庆筹备方案
2014/03/30 职场文书
机关门卫的岗位职责
2014/04/29 职场文书
初中学生操行评语
2014/12/26 职场文书
2015年财务部工作总结
2015/04/10 职场文书
会议开幕致辞怎么写
2016/03/03 职场文书
Python Django框架介绍之模板标签及模板的继承
2021/05/27 Python
Python Pandas读取Excel日期数据的异常处理方法
2022/02/28 Python