Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
对于Python的Django框架部署的一些建议
Apr 09 Python
详谈python3中用for循环删除列表中元素的坑
Apr 19 Python
python按修改时间顺序排列文件的实例代码
Jul 25 Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 Python
如何基于python测量代码运行时间
Dec 25 Python
在python3中使用shuffle函数要注意的地方
Feb 28 Python
解决Python中报错TypeError: must be str, not bytes问题
Apr 07 Python
django admin管理工具自定义时间区间筛选器DateRangeFilter介绍
May 19 Python
使用npy转image图像并保存的实例
Jul 01 Python
Python面向对象多态实现原理及代码实例
Sep 16 Python
python解析照片拍摄时间进行图片整理
Jul 23 Python
Python sklearn分类决策树方法详解
Sep 23 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP生成静态页面详解
2006/11/19 PHP
php运行出现Call to undefined function curl_init()的解决方法
2010/11/02 PHP
php中的常用魔术方法汇总
2016/02/14 PHP
php单元测试phpunit入门实例教程
2017/11/17 PHP
lib.utf.js
2007/08/21 Javascript
JS/FLASH实现复制代码到剪贴板(兼容所有浏览器)
2013/05/27 Javascript
js判读浏览器是否支持html5的canvas的代码
2013/11/18 Javascript
JS+CSS实现淡入式焦点图片幻灯切换效果的方法
2015/02/26 Javascript
Javascript基础回顾之(一) 类型
2017/01/31 Javascript
jQuery实现百度登录框的动态切换效果
2017/04/21 jQuery
详解vue.js数据传递以及数据分发slot
2018/01/20 Javascript
Vue 根据条件判断van-tab的显示方式
2020/08/03 Javascript
[01:18:36]LGD vs VP Supermajor 败者组决赛 BO3 第一场 6.10
2018/07/04 DOTA
pycharm 使用心得(三)Hello world!
2014/06/05 Python
Python实现动态添加类的属性或成员函数的解决方法
2014/07/16 Python
Python实现把utf-8格式的文件转换成gbk格式的文件
2015/01/22 Python
在Python中使用poplib模块收取邮件的教程
2015/04/29 Python
Python常见异常分类与处理方法
2017/06/04 Python
Python字符串对象实现原理详解
2019/07/01 Python
python使用递归的方式建立二叉树
2019/07/03 Python
Python调用SMTP服务自动发送Email的实现步骤
2021/02/07 Python
实例讲解CSS3中Transform的perspective属性的用法
2016/04/22 HTML / CSS
HTML5标签小集
2011/08/02 HTML / CSS
goodhealth官方海外旗舰店:新西兰国民营养师
2017/12/15 全球购物
以太网Ethernet IEEE802.3
2013/08/05 面试题
一些Solaris面试题
2013/03/22 面试题
旅游管理专业生自荐信范文
2014/01/02 职场文书
打造完美自荐信
2014/01/24 职场文书
节约电力资源的建议书
2014/03/12 职场文书
俞敏洪北大演讲稿
2014/05/22 职场文书
运动员口号
2014/06/09 职场文书
老龙头导游词
2015/02/11 职场文书
2016年优秀教师先进事迹材料
2016/02/26 职场文书
2019年市场部个人述职报告(三篇)
2019/10/23 职场文书
浅谈redis整数集为什么不能降级
2021/07/25 Redis
vue生命周期钩子函数以及触发时机
2022/04/26 Vue.js