Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python SQLite3简介
Feb 22 Python
完美解决安装完tensorflow后pip无法使用的问题
Jun 11 Python
解决python测试opencv时imread导致的错误问题
Jan 26 Python
python opencv 读取本地视频文件 修改ffmpeg的方法
Jan 26 Python
Python 实现域名解析为ip的方法
Feb 14 Python
python2使用bs4爬取腾讯社招过程解析
Aug 14 Python
Python箱型图绘制与特征值获取过程解析
Oct 22 Python
python实现七段数码管和倒计时效果
Nov 23 Python
python写一个随机点名软件的实例
Nov 28 Python
浅谈python的elementtree模块处理中文注意事项
Mar 06 Python
python实现画图工具
Aug 27 Python
python playwrigh框架入门安装使用
Jul 23 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
星际流派综述
2020/03/04 星际争霸
自制短波长线天线频率预选器 - 成功消除B2K之流的镜像
2021/03/02 无线电
中国站长站 For Dede4.0 采集规则
2007/05/27 PHP
php和jquery实现地图区域数据统计展示数据示例
2014/02/12 PHP
PHP+JS实现大规模数据提交的方法
2015/07/02 PHP
javascript编程起步(第三课)
2007/02/27 Javascript
IE 条件注释详解总结(附实例代码)
2009/08/29 Javascript
基于jquery的仿百度的鼠标移入图片抖动效果
2010/09/17 Javascript
JQuery写动态树示例代码
2013/07/31 Javascript
JQuery球队选择实例
2015/05/18 Javascript
jQuery实现下拉框选择图片功能实例
2015/08/08 Javascript
JQuery组件基于Bootstrap的DropDownList(完整版)
2016/07/05 Javascript
浅谈angular懒加载的一些坑
2016/08/20 Javascript
jQuery.cookie.js实现记录最近浏览过的商品功能示例
2017/01/23 Javascript
微信小程序页面间通信的5种方式
2017/03/31 Javascript
mongoose更新对象的两种方法示例比较
2017/12/19 Javascript
从零开始用electron手撸一个截屏工具的示例代码
2018/10/10 Javascript
详解vuex持久化插件解决浏览器刷新数据消失问题
2019/04/15 Javascript
vue 自定指令生成uuid滚动监听达到tab表格吸顶效果的代码
2020/09/16 Javascript
Python实现Mysql数据库连接池实例详解
2017/04/11 Python
详解 Python中LEGB和闭包及装饰器
2017/08/03 Python
python模仿网页版微信发送消息功能
2018/02/24 Python
pandas ix &iloc &loc的区别
2019/01/10 Python
对python 多线程中的守护线程与join的用法详解
2019/02/18 Python
Python笔试面试题小结
2019/09/07 Python
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
2020/05/25 Python
用Python实现定时备份Mongodb数据并上传到FTP服务器
2021/01/27 Python
python实现scrapy爬虫每天定时抓取数据的示例代码
2021/01/27 Python
css3中检验表单的required,focus,valid和invalid样式
2014/02/21 HTML / CSS
HTML5 Video/Audio播放本地文件示例介绍
2013/11/18 HTML / CSS
英国家电直销:Appliances Direct
2016/09/22 全球购物
客服端调用EJB对象的几个基本步骤
2012/01/15 面试题
委托函范文
2015/01/29 职场文书
六五普法心得体会2016
2016/01/21 职场文书
详解Redis实现限流的三种方式
2021/04/27 Redis
Go语言测试库testify使用学习
2022/07/23 Golang