Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python编程修改MP3文件名称的方法
Apr 19 Python
Python和C/C++交互的几种方法总结
May 11 Python
Python反射的用法实例分析
Feb 11 Python
python 编码规范整理
May 05 Python
python使用xlrd和xlwt读写Excel文件的实例代码
Sep 05 Python
为什么Python中没有"a++"这种写法
Nov 27 Python
在python中利用KNN实现对iris进行分类的方法
Dec 11 Python
python截取两个单词之间的内容方法
Dec 25 Python
详解Python列表赋值复制深拷贝及5种浅拷贝
May 15 Python
python框架flask入门之路由及简单实现方法
Jun 07 Python
pytorch 计算Parameter和FLOP的操作
Mar 04 Python
python3操作redis实现List列表实例
Aug 04 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
php 判断访客是否为搜索引擎蜘蛛的函数代码
2011/07/29 PHP
php防注入,表单提交值转义的实现详解
2013/06/10 PHP
php使用filter过滤器验证邮箱 ipv6地址 url验证
2013/12/25 PHP
PHP+jquery实时显示网站在线人数的方法
2015/01/04 PHP
PHP使用PDO连接ACCESS数据库
2015/03/05 PHP
详解PHP执行定时任务的实现思路
2015/12/21 PHP
ThinkPHP实现分页功能
2017/04/28 PHP
JavaScript入门教程 Cookies
2009/01/31 Javascript
js 父窗口控制子窗口的行为-打开,关闭,重定位,回复
2010/04/20 Javascript
JavaScript 判断日期格式是否正确的实现代码
2011/07/04 Javascript
fullCalendar中文API官方文档
2017/02/07 Javascript
AngularJS学习第二篇 AngularJS依赖注入
2017/02/13 Javascript
强大的 Angular 表单验证功能详细介绍
2017/05/23 Javascript
jquery实现放大镜简洁代码(推荐)
2017/06/08 jQuery
浅谈Emergence.js 检测元素可见性的 js 插件
2017/11/18 Javascript
在Vue中使用Compass的方法
2018/03/02 Javascript
微信小程序自定义弹窗wcPop插件
2018/11/19 Javascript
Vue组件间通信 Vuex的用法解析
2019/08/05 Javascript
javascript开发实现贪吃蛇游戏
2020/07/31 Javascript
[08:44]和酒神一起战斗 DOTA2教你做大人
2014/03/27 DOTA
Python标准库内置函数complex介绍
2014/11/25 Python
python去掉行尾的换行符方法
2017/01/04 Python
pycharm远程调试openstack的图文教程
2017/11/21 Python
Python tkinter实现的图片移动碰撞动画效果【附源码下载】
2018/01/04 Python
Python读取word文本操作详解
2018/01/22 Python
Python切片工具pillow用法示例
2018/03/30 Python
基于OpenCV python3实现证件照换背景的方法
2019/03/22 Python
简单了解django索引的相关知识
2019/07/17 Python
python实现连续变量最优分箱详解--CART算法
2019/11/22 Python
Python操作Excel工作簿的示例代码(\*.xlsx)
2020/03/23 Python
CSS3 animation ? steps 函数详解
2019/08/30 HTML / CSS
HTML5之HTML元素扩展(上)—新增加的元素及使用概述
2013/01/31 HTML / CSS
2014镇党委班子对照检查材料思想汇报
2014/09/23 职场文书
sql时间段切分实现每隔x分钟出一份高速门架车流量
2022/02/28 SQL Server
Java 获取Word中所有的插入和删除修订的方法
2022/04/06 Java/Android
JavaScript中10个Reduce常用场景技巧
2022/06/21 Javascript