编程 Python

Python英文文本分词(无空格)模块wordninja的使用实例

Posted in Python onFebruary 20, 2019

在NLP中，数据清洗与分词往往是很多工作开始的第一步，大多数工作中只有中文语料数据需要进行分词，现有的分词工具也已经有了很多了，这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理，如果英文数据中没有了空格，那么应该怎么处理呢？

今天介绍一个工具就是专门针对上述这种情况进行处理的，这个工具叫做：wordninja，地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下：

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看，效果还是不错的，之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python英文文本分词(无空格)模块wordninja的使用实例

- Author -

Together_CZ

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python局部赋值的规则

Mar 07 Python

详解python中的 is 操作符

Dec 26 Python

DataFrame中的object转换成float的方法

Apr 10 Python

详解python之协程gevent模块

Jun 14 Python

Python设计模式之迭代器模式原理与用法实例分析

Jan 10 Python

Python字符串逆序输出的实例讲解

Feb 16 Python

python实现桌面托盘气泡提示

Jul 29 Python

Python搭建代理IP池实现接口设置与整体调度

Oct 27 Python

使用 Python ssh 远程登陆服务器的最佳方案

Mar 06 Python

Python列表切片常用操作实例解析

Mar 10 Python

使用npy转image图像并保存的实例

Jul 01 Python

Python根据URL地址下载文件并保存至对应目录的实现

Nov 15 Python

Python基于datetime或time模块分别获取当前时间戳的方法实例

Feb 19 #Python

Python子类继承父类构造函数详解

Feb 19 #Python

Python 隐藏输入密码时屏幕回显的实例

Feb 19 #Python

Python3标准库总结

Feb 19 #Python

Python语言检测模块langid和langdetect的使用实例

Feb 19 #Python

对python周期性定时器的示例详解

Feb 19 #Python

Python3数字求和的实例

Feb 19 #Python

You might like

PHP.MVC的模板标签系统(五)

2006/09/05 PHP

Win2000+Apache+MySql+PHP4+PERL安装使用小结

2006/10/09 PHP

php csv操作类代码

2009/12/14 PHP

PHP编码规范的深入探讨

2013/06/06 PHP

FireFox中textNode分片的问题

2007/04/10 Javascript

JQuery文字列表向上滚动的代码

2013/11/13 Javascript

给事件响应函数传参数的四种方式小结

2013/12/05 Javascript

JavaScript实现上下浮动的窗口效果代码

2015/10/12 Javascript

基于javascript实现全屏漂浮广告

2016/03/31 Javascript

JS 对象(Object)和字符串(String)互转方法

2016/05/20 Javascript

微信小程序 LOL 英雄介绍开发实例

2016/09/30 Javascript

Bootstrap面板（Panels）的简单实现代码

2017/03/17 Javascript

全面解析jQuery中的$(window)与$(document)的用法区别

2017/08/15 jQuery

Angular实现图片裁剪工具ngImgCrop实践

2017/08/17 Javascript

bootstrap时间控件daterangepicker使用方法及各种小bug修复

2017/10/25 Javascript

jQuery实现带右侧索引功能的通讯录示例【附源码下载】

2018/04/17 jQuery

通过函数作用域和块级作用域看javascript的作用域链

2018/08/05 Javascript

使用 Vue cli 3.0 构建自定义组件库的方法

2019/04/30 Javascript

jQuery实现鼠标滑动切换图片

2020/05/27 jQuery

js实现星星海特效的示例

2020/09/28 Javascript

Django利用cookie保存用户登录信息的简单实现方法

2019/05/27 Python

Python 的字典（Dict）是如何存储的

2019/07/05 Python

python中调试或排错的五种方法示例

2019/09/12 Python

Python Pandas对缺失值的处理方法

2019/09/27 Python

Pytorch 中retain_graph的用法详解

2020/01/07 Python

python3 使用ssh隧道连接mysql的操作

2020/12/05 Python

基于Python中Remove函数的用法讨论

2020/12/11 Python

css3实现input输入框颜色渐变发光效果代码

2014/04/02 HTML / CSS

加拿大最大的相机店：Henry’s

2017/05/17 全球购物

英国家电购物网站：Sonic Direct

2019/03/26 全球购物

北美最大的参茸药食商城：德成行

2020/12/06 全球购物

高中生期中考试失利检讨书

2014/10/23 职场文书

三提三创主题教育活动查摆整改措施

2014/10/25 职场文书

亲属关系公证书样本

2015/01/23 职场文书

解决goland 导入项目后import里的包报红问题

2021/05/06 Golang

MySQL派生表联表查询实战过程

2022/03/20 MySQL