利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python编写一个简单的Lisp解释器的教程
Apr 03 Python
python如何实现excel数据添加到mongodb
Jul 30 Python
Python字典创建 遍历 添加等实用基础操作技巧
Sep 13 Python
Django跨域请求CSRF的方法示例
Nov 11 Python
Python3.5文件修改操作实例分析
May 01 Python
python创建子类的方法分析
Nov 28 Python
在python中利用try..except来代替if..else的用法
Dec 19 Python
基于python3生成标签云代码解析
Feb 18 Python
python实现信号时域统计特征提取代码
Feb 26 Python
Python loguru日志库之高效输出控制台日志和日志记录
Mar 07 Python
Django自定义全局403、404、500错误页面的示例代码
Mar 08 Python
python库skimage给灰度图像染色的方法示例
Apr 27 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
全国FM电台频率大全 - 31 新疆维吾尔族自治区
2020/03/11 无线电
PHP实现图片上传并压缩
2015/12/22 PHP
php socket通信(tcp/udp)实例分析
2016/02/14 PHP
php简单中奖算法(实例)
2017/08/15 PHP
php实现的三个常用加密解密功能函数示例
2017/11/06 PHP
laravel + vue实现的数据统计绘图(今天、7天、30天数据)
2018/07/31 PHP
破除一些网站复制、右键限制
2006/11/04 Javascript
WEB页子窗口(showModalDialog和showModelessDialog)使用说明
2009/10/25 Javascript
jquery插件jTimer(jquery定时器)使用方法
2013/12/23 Javascript
两种方法基于jQuery实现IE浏览器兼容placeholder效果
2014/10/14 Javascript
JavaScript对数组进行随机重排的方法
2015/07/22 Javascript
Android中Okhttp3实现上传多张图片同时传递参数
2017/02/18 Javascript
Bootstrap页面标题Page Header的实现方法
2017/03/22 Javascript
React Native使用Modal自定义分享界面的示例代码
2017/10/31 Javascript
通过vue-cli来学习修改Webpack多环境配置和发布问题
2017/12/22 Javascript
微信小程序实现YDUI的ScrollNav组件
2018/02/02 Javascript
浅谈vue后台管理系统权限控制思考与实践
2018/12/19 Javascript
详解node.js 事件循环
2020/07/22 Javascript
Javascript如何实现扩充基本类型
2020/08/26 Javascript
javascript实现电商放大镜效果
2020/11/23 Javascript
python实现apahce网站日志分析示例
2014/04/02 Python
在Python中使用cookielib和urllib2配合PyQuery抓取网页信息
2015/04/25 Python
Django中实现点击图片链接强制直接下载的方法
2015/05/14 Python
Python3.5 + sklearn利用SVM自动识别字母验证码方法示例
2019/05/10 Python
Django+Celery实现动态配置定时任务的方法示例
2020/05/26 Python
Python如何利用Har文件进行遍历指定字典替换提交的数据详解
2020/11/05 Python
CSS3打造百度贴吧的3D翻牌效果示例
2017/01/04 HTML / CSS
大学毕业生通用求职信
2013/09/28 职场文书
汉语专业应届生求职信
2013/10/01 职场文书
工程师求职简历的自我评价分享
2013/10/10 职场文书
国际贸易专业个人鉴定
2014/02/22 职场文书
欢度春节标语
2014/07/01 职场文书
初中家长评语大全
2014/12/26 职场文书
网络研修心得体会
2016/01/08 职场文书
导游词之千岛湖
2019/09/23 职场文书
javascript遍历对象的五种方式实例代码
2021/10/24 Javascript