利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的tuple元组详细介绍
Feb 02 Python
python2.7 mayavi 安装图文教程(推荐)
Jun 22 Python
python安装Scrapy图文教程
Aug 14 Python
Python进阶学习之特殊方法实例详析
Dec 01 Python
浅谈Python2获取中文文件名的编码问题
Jan 09 Python
Python中.join()和os.path.join()两个函数的用法详解
Jun 11 Python
python爬虫实现中英翻译词典
Jun 25 Python
python的等深分箱实例
Nov 22 Python
Python如何在循环内使用list.remove()
Jun 01 Python
pandas to_excel 添加颜色操作
Jul 14 Python
小白教你PyCharm从下载到安装再到科学使用PyCharm2020最新激活码
Sep 25 Python
python中Pyqt5使用Qlabel标签播放视频
Apr 22 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
php中计算中文字符串长度、截取中文字符串的函数代码
2011/08/09 PHP
使用Sphinx对索引进行搜索
2013/06/25 PHP
php常用的url处理函数总结
2014/11/19 PHP
PDO::lastInsertId讲解
2019/01/29 PHP
PHP cookie,session的使用与用户自动登录功能实现方法分析
2019/06/05 PHP
用js实现的检测浏览器和系统的函数
2009/04/09 Javascript
等待指定时间后自动跳转或关闭当前页面的js代码
2013/07/09 Javascript
jQuery学习笔记之 Ajax操作篇(一) - 数据加载
2014/06/23 Javascript
最新最热最实用的15个jQuery插件汇总
2015/07/05 Javascript
JS实现控制文本框的内容
2016/07/10 Javascript
js实现适配不同的屏幕大小
2017/04/10 Javascript
jQuery获取table表中的td标签(实例讲解)
2017/07/28 jQuery
vue语法之拼接字符串的示例代码
2017/10/25 Javascript
jQuery实现的鼠标拖动浮层功能示例【拖动div等任何标签】
2018/12/29 jQuery
js实现左右轮播图
2020/01/09 Javascript
Vue中import from的来源及省略后缀与加载文件夹问题
2020/02/09 Javascript
JavaScript实现拖拽效果
2020/03/16 Javascript
vue props 一次传多个值实例
2020/07/22 Javascript
vue 中this.$set 动态绑定数据的案例讲解
2021/01/29 Vue.js
[02:16]深扒TI7聊天轮盘语音出处2
2017/05/11 DOTA
Python中__slots__属性介绍与基本使用方法
2018/09/05 Python
基于python实现微信好友数据分析(简单)
2020/02/16 Python
没编程基础可以学python吗
2020/06/17 Python
django模型类中,null=True,blank=True用法说明
2020/07/09 Python
Python之字典对象的几种创建方法
2020/09/30 Python
如何在vscode中安装python库的方法步骤
2021/01/06 Python
详解html5 canvas 微信海报分享(个人爬坑)
2018/01/12 HTML / CSS
浅谈Html5移动端ios/Android兼容性总结
2018/06/01 HTML / CSS
凯特王妃父母建立的派对用品网站:Party Pieces
2017/05/28 全球购物
传播学毕业生求职信
2013/10/11 职场文书
小学阳光体育活动总结
2014/07/05 职场文书
2014个人年度工作总结范文
2014/12/24 职场文书
放射科岗位职责
2015/02/14 职场文书
个人廉政承诺书
2015/04/28 职场文书
离婚协议书范文2016
2016/03/18 职场文书
Java elasticsearch安装以及部署教程
2021/06/28 Java/Android