Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python with的用法
Aug 22 Python
python类继承用法实例分析
May 27 Python
Python操作Word批量生成文章的方法
Jul 28 Python
pycharm重置设置,恢复默认设置的方法
Oct 22 Python
Python 获取中文字拼音首个字母的方法
Nov 28 Python
python requests.post带head和body的实例
Jan 02 Python
python获取微信企业号打卡数据并生成windows计划任务
Apr 30 Python
Django admin禁用编辑链接和添加删除操作详解
Nov 15 Python
pytorch使用tensorboardX进行loss可视化实例
Feb 24 Python
Python发送手机动态验证码代码实例
Feb 28 Python
Python脚本去除文件的只读性操作
Mar 05 Python
python 判断文件或文件夹是否存在
Mar 18 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP cron中的批处理
2008/09/16 PHP
PHP判断json格式是否正确的实现代码
2017/09/20 PHP
PHPTree――php快速生成无限级分类
2018/03/30 PHP
jQuery Ajax文件上传(php)
2009/06/16 Javascript
js 获取Listbox选择的值的代码
2010/04/15 Javascript
javascript 仿QQ滑动菜单效果代码
2010/09/03 Javascript
深入理解JSON数据源格式
2014/01/10 Javascript
window.location不跳转的问题解决方法
2014/04/17 Javascript
JS小游戏之仙剑翻牌源码详解
2014/09/25 Javascript
Javascript基础回顾之(一) 类型
2017/01/31 Javascript
vue2.0结合DataTable插件实现表格动态刷新的方法详解
2017/03/17 Javascript
angular+ionic返回上一页并刷新页面
2017/08/08 Javascript
Node.js 使用流实现读写同步边读边写功能
2017/09/11 Javascript
使用vs code开发Nodejs程序的使用方法
2017/09/21 NodeJs
react+redux仿微信聊天界面
2019/06/21 Javascript
swiper Scrollbar滚动条组件详解
2019/09/08 Javascript
vue页面更新patch的实现示例
2020/03/25 Javascript
Python中多线程及程序锁浅析
2015/01/21 Python
python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例
2019/06/17 Python
Python如何使用k-means方法将列表中相似的句子归类
2019/08/08 Python
python批量处理txt文件的实例代码
2020/01/13 Python
公认8个效率最高的爬虫框架
2020/07/28 Python
利用python为PostgreSQL的表自动添加分区
2021/01/18 Python
CSS3 渐变(Gradients)之CSS3 线性渐变
2016/07/08 HTML / CSS
阻止移动设备(手机、pad)浏览器双击放大网页的方法
2014/06/03 HTML / CSS
茵宝(Umbro)英国官方商店:英国足球服装生产商
2016/12/29 全球购物
Intersport西班牙:在线体育商店
2019/11/06 全球购物
美国办公用品折扣网站:Shoplet.com
2019/11/24 全球购物
军训自我鉴定
2013/12/14 职场文书
大学生职业生涯规划书的基本内容
2014/01/06 职场文书
小学生安全责任书
2014/07/25 职场文书
销售员试用期自我评价
2014/09/15 职场文书
道路交通事故赔偿协议书
2014/10/24 职场文书
2015年八一建军节活动总结
2015/03/20 职场文书
电影地道战观后感
2015/06/04 职场文书
阿里云国际版 使用Nginx作为HTTPS转发代理服务器
2022/05/11 Servers