编程 Python

利用Python将文本中的中英文分离方法

Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时，新闻评论等文本通常是中英文及其他语言的混杂，若不加处理直接分析，结果往往差强人意。

下面对中英文文本进行分离做一下总结：

1、超短文本，ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)

out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)

out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是：\u4e00-\u9fa5，相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时，需要将空格[\u0020]加入，不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

利用Python将文本中的中英文分离方法

- Author -

微澜同学

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python编写一个简单的Lisp解释器的教程

Apr 03 Python

python如何实现excel数据添加到mongodb

Jul 30 Python

Python字典创建遍历添加等实用基础操作技巧

Sep 13 Python

Django跨域请求CSRF的方法示例

Nov 11 Python

Python3.5文件修改操作实例分析

May 01 Python

python创建子类的方法分析

Nov 28 Python

在python中利用try..except来代替if..else的用法

Dec 19 Python

基于python3生成标签云代码解析

Feb 18 Python

python实现信号时域统计特征提取代码

Feb 26 Python

Python loguru日志库之高效输出控制台日志和日志记录

Mar 07 Python

Django自定义全局403、404、500错误页面的示例代码

Mar 08 Python

python库skimage给灰度图像染色的方法示例

Apr 27 Python

python list格式数据excel导出方法

Oct 31 #Python

解决pyinstaller打包exe文件出现命令窗口一闪而过的问题

Oct 31 #Python

Selenium定时刷新网页的实现代码

Oct 31 #Python

python3.6利用pyinstall打包py为exe的操作实例

Oct 31 #Python

python3.6.3转化为win-exe文件发布的方法

Oct 31 #Python

使用Py2Exe for Python3创建自己的exe程序示例

Oct 31 #Python

python打包生成的exe文件运行时提示缺少模块的解决方法

Oct 31 #Python