利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的Django框架使用入门指引
Apr 15 Python
Python下的subprocess模块的入门指引
Apr 16 Python
Windows下PyMongo下载及安装教程
Apr 27 Python
python模拟enum枚举类型的方法小结
Apr 30 Python
python中sys.argv参数用法实例分析
May 20 Python
Python 多线程抓取图片效率对比
Feb 27 Python
新手如何快速入门Python(菜鸟必看篇)
Jun 10 Python
hmac模块生成加入了密钥的消息摘要详解
Jan 11 Python
Python实现迭代时使用索引的方法示例
Jun 05 Python
python中int与str互转方法
Jul 02 Python
opencv 获取rtsp流媒体视频的实现方法
Aug 23 Python
深入浅析python3 依赖倒置原则(示例代码)
Jul 09 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
PHP采集类snoopy详细介绍(snoopy使用教程)
2014/06/19 PHP
PHP使用curl模拟post上传及接收文件的方法
2016/03/04 PHP
php 计算两个时间相差的天数、小时数、分钟数、秒数详解及实例代码
2016/11/09 PHP
一个JavaScript继承的实现
2006/10/24 Javascript
兼容IE和Firefox的javascript获取iframe文档内容的函数
2011/08/15 Javascript
js中的如何定位固定层的位置
2014/06/15 Javascript
JavaScript实现数字数组按照倒序排列的方法
2015/04/06 Javascript
在JavaScript中处理数组之reverse()方法的使用
2015/06/09 Javascript
js实现防止被iframe的方法
2015/07/03 Javascript
Jquery检验手机号是否符合规则并根据手机号检测结果将提交按钮设为不同状态
2015/11/26 Javascript
基于canvas实现的钟摆效果完整实例
2016/01/26 Javascript
javascript实现随机生成DIV背景色
2016/06/20 Javascript
微信小程序 HTTPS报错整理常见问题及解决方案
2016/12/14 Javascript
vuejs父子组件通信的问题
2017/01/11 Javascript
JS实现课堂随机点名和顺序点名
2017/03/09 Javascript
Vue.JS实现垂直方向展开、收缩不定高度模块的JS组件
2018/06/19 Javascript
vue2.0 下拉框默认标题设置方法
2018/08/22 Javascript
vue中使用codemirror的实例详解
2018/11/01 Javascript
vue项目中常见问题及解决方案(推荐)
2019/10/21 Javascript
Vue实现boradcast和dispatch的示例
2020/11/13 Javascript
[01:18]PWL开团时刻DAY4——圣剑与抢盾
2020/11/03 DOTA
在Django中使用Sitemap的方法讲解
2015/07/22 Python
python中input()与raw_input()的区别分析
2016/02/27 Python
对python中词典的values值的修改或新增KEY详解
2019/01/20 Python
python提取log文件内容并画出图表
2019/07/08 Python
wxPython电子表格功能wx.grid实例教程
2019/11/19 Python
英国领先的男士美容护发用品公司:Mankind
2016/08/31 全球购物
Kent & Curwen:与大卫·贝克汉姆合作
2017/06/13 全球购物
德国购买健身器材:AsVIVA
2017/08/09 全球购物
德国汽车零件和汽车配件网上商店:kfzteile24
2018/11/14 全球购物
传承焦裕禄精神思想汇报2014
2014/09/10 职场文书
个人创业事迹材料
2014/12/30 职场文书
业务员岗位职责
2015/02/03 职场文书
2015个人简历自我评价语
2015/03/11 职场文书
大学自主招生自荐信(2016精选篇)
2016/01/28 职场文书
掌握这项技巧,一年阅读300本书不是梦
2019/09/12 职场文书