利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中的多线程实例教程
Aug 27 Python
简单了解Python下用于监视文件系统的pyinotify包
Nov 13 Python
Python中模块与包有相同名字的处理方法
May 05 Python
Python用Pillow(PIL)进行简单的图像操作方法
Jul 07 Python
解决Python下json.loads()中文字符出错的问题
Dec 19 Python
python 阶乘累加和的实例
Feb 01 Python
python如何解析配置文件并应用到项目中
Jun 27 Python
Django用户认证系统 Web请求中的认证解析
Aug 02 Python
python绘制无向图度分布曲线示例
Nov 22 Python
pandas 中对特征进行硬编码和onehot编码的实现
Dec 20 Python
一篇文章教你用python画动态爱心表白
Nov 22 Python
python学习之使用Matplotlib画实时的动态折线图的示例代码
Feb 25 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
php 用sock技术发送邮件的函数
2007/07/21 PHP
PHP 采集心得技巧
2009/05/15 PHP
PHP中使用unset销毁变量并内存释放问题
2012/07/05 PHP
一个比较不错的PHP日历类分享
2014/11/18 PHP
php从文件夹随机读取文件的方法
2015/06/01 PHP
thinkphp整合微信支付代码分享
2016/11/24 PHP
PHP生成图片验证码功能示例
2017/01/12 PHP
PHP实现的登录页面信息提示功能示例
2017/07/24 PHP
PHP实现会员账号单唯一登录的方法分析
2019/03/07 PHP
PHP实现递归的三种方法
2020/07/04 PHP
JavaScript原型链示例分享
2014/01/26 Javascript
JavaScript时间转换处理函数
2015/04/14 Javascript
JS+CSS实现自动切换的网页滑动门菜单效果代码
2015/09/14 Javascript
js获取页面引用的css样式表中的属性值方法(推荐)
2016/08/19 Javascript
通过fastclick源码分析彻底解决tap“点透”
2017/12/24 Javascript
jQuery 点击获取验证码按钮及倒计时功能
2018/09/20 jQuery
vue实现把接口单独存放在一个文件方式
2020/08/13 Javascript
Python实现CET查分的方法
2015/03/10 Python
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
2016/01/20 Python
python自带的http模块详解
2016/11/06 Python
Python编程django实现同一个ip十分钟内只能注册一次
2017/11/03 Python
详解python中的Turtle函数库
2018/11/19 Python
在python中对变量判断是否为None的三种方法总结
2019/01/23 Python
python3.x实现base64加密和解密
2019/03/28 Python
python安装gdal的两种方法
2019/10/29 Python
在jupyter notebook 添加 conda 环境的操作详解
2020/04/10 Python
QML实现钟表效果
2020/06/02 Python
Tensorflow与Keras自适应使用显存方式
2020/06/22 Python
Opencv常见图像格式Data Type及代码实例
2020/11/02 Python
Python用requests库爬取返回为空的解决办法
2021/02/21 Python
详解纯CSS3制作的20种loading动效
2017/07/05 HTML / CSS
师范应届生求职信
2013/11/15 职场文书
费用会计岗位职责
2014/01/01 职场文书
南阳市白酒市场的调查报告
2019/11/08 职场文书
python3实现常见的排序算法(示例代码)
2021/07/04 Python
Go语言 详解net的tcp服务
2022/04/14 Golang