Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Linux中Python 环境软件包安装步骤
Mar 31 Python
Python 常用string函数详解
May 30 Python
PyQt5利用QPainter绘制各种图形的实例
Oct 19 Python
详解python中的 is 操作符
Dec 26 Python
Python编程pygame模块实现移动的小车示例代码
Jan 03 Python
Python生成器定义与简单用法实例分析
Apr 30 Python
Python二叉树定义与遍历方法实例分析
May 25 Python
关于pytorch中网络loss传播和参数更新的理解
Aug 20 Python
在python中做正态性检验示例
Dec 09 Python
Python实现自动访问网页的例子
Feb 21 Python
推荐技术人员一款Python开源库(造数据神器)
Jul 08 Python
Python爬虫教程之利用正则表达式匹配网页内容
Dec 08 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
删除无限级目录与文件代码共享
2006/07/12 PHP
JS小框架 fly javascript framework
2009/11/26 Javascript
js修改input的type属性及浏览器兼容问题探讨与解决
2013/01/23 Javascript
给Flash加一个超链接(推荐使用透明层)兼容主流浏览器
2013/06/09 Javascript
javascript新建标签,判断键盘输入,以及判断焦点(示例代码)
2013/11/25 Javascript
ZeroClipboard插件实现多浏览器复制功能(支持firefox、chrome、ie6)
2014/08/30 Javascript
使用jQuery jqPlot插件绘制柱状图
2014/12/18 Javascript
jQuery模拟原生态App上拉刷新下拉加载更多页面及原理
2015/08/10 Javascript
详解javascript传统方法实现异步校验
2016/01/22 Javascript
理解javascript封装
2016/02/23 Javascript
js的OOP继承实现(必看篇)
2017/02/18 Javascript
基于nodejs+express4.X实现文件下载的实例代码
2017/07/13 NodeJs
基于jquery的on和click的区别详解
2018/01/15 jQuery
10 种最常见的 Javascript 错误(频率最高)
2018/02/08 Javascript
Vue源码解析之数组变异的实现
2018/12/04 Javascript
JavaScript实现页面中录音功能的方法
2019/06/04 Javascript
JS前端知识点总结之页面加载事件,数组操作,DOM节点操作,循环和分支
2019/07/04 Javascript
Vue中通过Vue.extend动态创建实例的方法
2019/08/13 Javascript
解决vue更新路由router-view复用组件内容不刷新的问题
2019/11/04 Javascript
Vue 解决通过this.$refs来获取DOM或者组件报错问题
2020/07/28 Javascript
python使用psutil模块获取系统状态
2016/08/27 Python
pandas 获取季度,月度,年度首尾日期的方法
2018/04/11 Python
numpy返回array中元素的index方法
2018/06/27 Python
数据清洗--DataFrame中的空值处理方法
2018/07/03 Python
详解Pandas之容易让人混淆的行选择和列选择
2019/07/10 Python
python Django 反向访问器的外键冲突解决
2020/05/20 Python
浅析Python迭代器的高级用法
2020/07/16 Python
HTML5 textarea高度自适应的两种方案
2020/04/08 HTML / CSS
Canal官网:巴西女性时尚品牌
2019/10/16 全球购物
50岁生日感言
2014/01/23 职场文书
代理班主任的自我评价
2014/02/04 职场文书
党员教师工作决心书
2014/03/13 职场文书
企业文明单位申报材料
2014/05/16 职场文书
教师个人考察材料
2014/12/16 职场文书
Pycharm 如何设置HTML文件自动补全代码或标签
2021/05/21 Python
SQL基础查询和LINQ集成化查询
2022/01/18 MySQL