Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
利用python如何处理百万条数据(适用java新手)
Jun 06 Python
numpy matrix和array的乘和加实例
Jun 28 Python
python高效过滤出文件夹下指定文件名结尾的文件实例
Oct 21 Python
解决sublime+python3无法输出中文的问题
Dec 12 Python
python 文本单词提取和词频统计的实例
Dec 22 Python
Python操作rabbitMQ的示例代码
Mar 19 Python
Python PIL读取的图像发生自动旋转的实现方法
Jul 05 Python
python的time模块和datetime模块实例解析
Nov 29 Python
Python request使用方法及问题总结
Apr 26 Python
Python jieba结巴分词原理及用法解析
Nov 05 Python
python 模拟登录B站的示例代码
Dec 15 Python
基于python的matplotlib制作双Y轴图
Apr 20 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP cron中的批处理
2008/09/16 PHP
PHP手机号码归属地查询代码(API接口/mysql)
2012/09/04 PHP
一个漂亮的php验证码类(分享)
2013/08/06 PHP
CentOS安装php v8js教程
2015/02/26 PHP
jQuery使用手册之 事件处理
2007/03/24 Javascript
关于IE浏览器以及Firefox下的javascript冒泡事件的响应层级
2010/10/14 Javascript
jquery 全局AJAX事件使用代码
2010/11/05 Javascript
jQuery图片滚动图片的效果(另类实现)
2013/06/02 Javascript
AngularJS实现表单手动验证和表单自动验证
2015/12/09 Javascript
ES6中非常实用的新特性介绍
2016/03/10 Javascript
JavaScript File分段上传
2016/03/10 Javascript
利用jquery制作滚动到指定位置触发动画
2016/03/26 Javascript
Angular 理解module和injector,即依赖注入
2016/09/07 Javascript
Node.js发送HTTP客户端请求并显示响应结果的方法示例
2017/04/12 Javascript
vue.js中mint-ui框架的使用方法
2017/05/12 Javascript
原生javascript AJAX 三级联动的实现代码
2018/05/04 Javascript
vue 实现小程序或商品秒杀倒计时
2019/04/14 Javascript
布同 Python中文问题解决方法(总结了多位前人经验,初学者必看)
2011/03/13 Python
python dict remove数组删除(del,pop)
2013/03/24 Python
跟老齐学Python之永远强大的函数
2014/09/14 Python
python之DataFrame实现excel合并单元格
2021/02/22 Python
python解决pandas处理缺失值为空字符串的问题
2018/04/08 Python
python判断输入日期为第几天的实例
2018/11/13 Python
python getopt模块使用实例解析
2019/12/18 Python
python内置模块collections知识点总结
2019/12/19 Python
python matplotlib模块基本图形绘制方法小结【直线,曲线,直方图,饼图等】
2020/04/26 Python
Selenium元素定位的30种方式(史上最全)
2020/05/11 Python
瑜伽国际:Yoga International
2018/04/18 全球购物
Charles & Colvard官网:美国莫桑石品牌
2019/06/05 全球购物
Visual-Click葡萄牙:欧洲领先的在线眼镜商
2020/02/17 全球购物
孝老爱亲模范事迹
2014/01/24 职场文书
电台实习生求职信
2014/02/25 职场文书
教师读书活动总结
2014/05/07 职场文书
房屋授权委托书范本
2014/10/07 职场文书
2019年妇科护士的自我鉴定(3篇)
2019/09/26 职场文书
Python实现PIL图像处理库绘制国际象棋棋盘
2021/07/16 Python