利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python自动化测试工具Splinter简介和使用实例
May 13 Python
Python中asyncore的用法实例
Sep 29 Python
wxPython使用系统剪切板的方法
Jun 16 Python
Python实现把json格式转换成文本或sql文件
Jul 10 Python
Pycharm学习教程(4) Python解释器的相关配置
May 03 Python
python如何创建TCP服务端和客户端
Aug 26 Python
在Django admin中编辑ManyToManyField的实现方法
Aug 09 Python
python修改文件内容的3种方法详解
Nov 15 Python
python 遗传算法求函数极值的实现代码
Feb 11 Python
Python中logging日志记录到文件及自动分割的操作代码
Aug 05 Python
Python如何急速下载第三方库详解
Nov 02 Python
python实现图片九宫格分割的示例
Apr 25 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
php cache类代码(php数据缓存类)
2010/04/15 PHP
php下使用strpos需要注意 === 运算符
2010/07/17 PHP
PHP与SQL注入攻击防范小技巧
2011/09/16 PHP
解析link_mysql的php版
2013/06/30 PHP
UPUPW 更新 64 位 Apache 系列 PHP 7.0 正式版
2015/12/08 PHP
PHP流Streams、包装器wrapper概念与用法实例详解
2017/11/17 PHP
php如何把表单内容提交到数据库
2019/07/08 PHP
锋利的jQuery 要点归纳(三) jQuery中的事件和动画(下:动画篇)
2010/03/24 Javascript
js 实现复制到粘贴板的功能代码
2010/05/13 Javascript
一个基于jquery的文本框记数器
2012/09/19 Javascript
原生js实现半透明遮罩层效果具体代码
2013/06/06 Javascript
JavaScript中的prototype和constructor简明总结
2014/04/05 Javascript
jquery实现表单输入时提示文字滑动向上效果
2015/08/10 Javascript
Bootstrap菜单按钮及导航实例解析
2016/09/09 Javascript
AngularJS实现动态切换样式的方法分析
2018/06/26 Javascript
15分钟学会vue项目改造成SSR(小白教程)
2019/12/17 Javascript
vue 通过 Prop 向子组件传递数据的实现方法
2020/10/30 Javascript
[04:16]完美世界DOTA2联赛PWL S2 集锦第一期
2020/11/23 DOTA
使用python删除nginx缓存文件示例(python文件操作)
2014/03/26 Python
Python Sleep休眠函数使用简单实例
2015/02/02 Python
python写入中英文字符串到文件的方法
2015/05/06 Python
详解Python的Django框架中inclusion_tag的使用
2015/07/21 Python
Django与遗留的数据库整合的方法指南
2015/07/24 Python
python中input()与raw_input()的区别分析
2016/02/27 Python
Python获取文件所在目录和文件名的方法
2017/01/12 Python
python脚本爬取字体文件的实现方法
2017/04/29 Python
python字典的setdefault的巧妙用法
2019/08/07 Python
解决Python中导入自己写的类,被划红线,但不影响执行的问题
2020/07/13 Python
Python Pillow(PIL)库的用法详解
2020/09/19 Python
python 实现Requests发送带cookies的请求
2021/02/08 Python
大学毕业通用个人的求职信
2013/12/08 职场文书
财务科科长岗位职责
2014/03/10 职场文书
《祁黄羊》教学反思
2014/04/22 职场文书
博士生导师推荐信
2014/07/08 职场文书
上班时间打瞌睡检讨书
2014/09/26 职场文书
2015年药品销售工作总结范文
2015/05/25 职场文书