利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
KMP算法精解及其Python版的代码示例
Jun 01 Python
python爬虫基本知识
Mar 05 Python
Python 中的Selenium异常处理实例代码
May 03 Python
解决pycharm每次新建项目都要重新安装一些第三方库的问题
Jan 17 Python
Python在cmd上打印彩色文字实现过程详解
Aug 07 Python
基于python二叉树的构造和打印例子
Aug 09 Python
基于TensorBoard中graph模块图结构分析
Feb 15 Python
python微信公众号开发简单流程实现
Mar 09 Python
基于python纯函数实现井字棋游戏
May 27 Python
python3从网络摄像机解析mjpeg http流的示例
Nov 13 Python
python安装及变量名介绍详解
Dec 12 Python
Python实现简单的2048小游戏
Mar 01 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
由php if 想到的些问题
2008/03/22 PHP
PHP中extract()函数的妙用分析
2012/07/11 PHP
使用php判断浏览器的类型和语言的函数代码
2013/02/28 PHP
ThinkPHP中limit()使用方法详解
2016/04/19 PHP
php7基于递归实现删除空文件夹的方法示例
2017/06/15 PHP
PHP strripos函数用法总结
2019/02/11 PHP
PHP 扩展Memcached命令用法实例总结
2020/06/04 PHP
javascript div 弹出可拖动窗口
2009/02/26 Javascript
cookie 最近浏览记录(中文escape转码)具体实现
2013/06/08 Javascript
js获取和设置属性的方法
2014/02/20 Javascript
深入理解JS中的变量及作用域、undefined与null
2014/03/04 Javascript
jquery获取对象的方法足以应付常见的各种类型的对象
2014/05/14 Javascript
JavaScript实现MIPS乘法模拟的方法
2015/04/17 Javascript
原生JS封装ajax 传json,str,excel文件上传提交表单(推荐)
2016/06/21 Javascript
针对后台列表table拖拽比较实用的jquery拖动排序
2016/10/10 Javascript
扩展jquery easyui tree的搜索树节点方法(推荐)
2016/10/28 Javascript
JS异步文件分片断点上传的实现思路
2016/12/25 Javascript
五步轻松实现zTree的使用
2017/11/01 Javascript
浅谈vuex 闲置状态重置方案
2018/01/04 Javascript
Vue.js 中的 v-model 指令及绑定表单元素的方法
2018/12/03 Javascript
Vue 幸运大转盘实现思路详解
2019/05/06 Javascript
Vue 处理表单input单行文本框的实例代码
2019/05/09 Javascript
Python随手笔记之标准类型内建函数
2015/12/02 Python
Python随机生成手机号、数字的方法详解
2017/07/21 Python
对python中基于tcp协议的通信(数据传输)实例讲解
2019/07/22 Python
python使用pygame实现笑脸乒乓球弹珠球游戏
2019/11/25 Python
css 省略号 css3让多余的字符串消失并附加省略号的实现代码
2013/02/07 HTML / CSS
CSS3 实现雷达扫描图的示例代码
2020/09/21 HTML / CSS
HTML5移动开发图片压缩上传功能
2016/11/09 HTML / CSS
4s店总经理岗位职责
2013/12/31 职场文书
《真想变成大大的荷叶》教学反思
2014/04/14 职场文书
关于青春的演讲稿
2014/05/05 职场文书
2015年中学元旦晚会活动方案
2014/12/09 职场文书
2015年财政所工作总结
2015/04/25 职场文书
毕业论文致谢格式模板
2015/05/14 职场文书
日本读研:怎样写好一篇日本研究计划书?
2019/07/15 职场文书