利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 拷贝对象(深拷贝deepcopy与浅拷贝copy)
Sep 06 Python
python 生成目录树及显示文件大小的代码
Jul 23 Python
python使用paramiko模块实现ssh远程登陆上传文件并执行
Jan 27 Python
使用Python的Supervisor进行进程监控以及自动启动
May 29 Python
python多线程操作实例
Nov 21 Python
通过实例浅析Python对比C语言的编程思想差异
Aug 30 Python
Python 爬虫图片简单实现
Jun 01 Python
git进行版本控制心得详谈
Dec 10 Python
Python测试人员需要掌握的知识
Feb 08 Python
python使用itchat模块给心爱的人每天发天气预报
Nov 25 Python
pytorch 实现在一个优化器中设置多个网络参数的例子
Feb 20 Python
Python2.7:使用Pyhook模块监听鼠标键盘事件-获取坐标实例
Mar 14 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
php表单文件iframe异步上传实例讲解
2017/07/26 PHP
Laravel使用消息队列需要注意的一些问题
2017/12/13 PHP
浏览器无法运行JAVA脚本的解决方法
2008/01/09 Javascript
JavaScript 动态创建VML的方法
2009/10/14 Javascript
IE下js调试工具Companion.JS
2010/10/15 Javascript
jQuery 验证插件 Web前端设计模式(asp.net)
2010/10/17 Javascript
由Javascript实现的页面日历
2011/11/04 Javascript
js使用正则实现ReplaceAll全部替换的方法
2014/07/18 Javascript
在JavaScript中处理时间之setMinutes()方法的使用
2015/06/11 Javascript
浅谈javascript构造函数与实例化对象
2015/06/22 Javascript
JS+CSS实现简易的滑动门效果代码
2015/09/24 Javascript
EasyUi中的Combogrid 实现分页和动态搜索远程数据
2016/04/01 Javascript
BootStrap Progressbar 实现大文件上传的进度条的实例代码
2016/06/27 Javascript
微信小程序遇到修改数据后页面不渲染的问题解决
2017/03/09 Javascript
JavaScript实现选中文字提示新浪微博分享效果
2017/06/15 Javascript
详解vue-router数据加载与缓存使用总结
2018/10/29 Javascript
Javascript实现秒表倒计时功能
2018/11/17 Javascript
nodejs对项目下所有空文件夹创建gitkeep的方法
2019/08/02 NodeJs
python自动安装pip
2014/04/24 Python
Python使用time模块实现指定时间触发器示例
2017/05/18 Python
Python实现导出数据生成excel报表的方法示例
2017/07/12 Python
Python中最大最小赋值小技巧(分享)
2017/12/23 Python
Python使用itcaht库实现微信自动收发消息功能
2020/07/13 Python
Python requests及aiohttp速度对比代码实例
2020/07/16 Python
python中numpy数组与list相互转换实例方法
2021/01/29 Python
ghd澳大利亚官方网站:英国最受欢迎的美发工具品牌
2018/05/21 全球购物
Java面试题:请问一下代码输出是什么
2015/05/27 面试题
机械电子工程专业推荐信范文
2013/11/20 职场文书
大学学生会竞选演讲稿
2014/04/25 职场文书
竞选班干部演讲稿500字
2014/08/20 职场文书
世界读书日的活动方案
2014/08/20 职场文书
联谊活动总结
2014/08/28 职场文书
党的群众路线教育实践活动查摆剖析材料
2014/10/10 职场文书
2014年绩效考核工作总结
2014/12/11 职场文书
小浪底导游词
2015/02/12 职场文书
2016年小学六一儿童节活动总结
2016/04/06 职场文书