利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python虚拟环境Virtualenv使用教程
May 18 Python
python中私有函数调用方法解密
Apr 29 Python
Python的collections模块中的OrderedDict有序字典
Jul 07 Python
CentOS 6.X系统下升级Python2.6到Python2.7 的方法
Oct 12 Python
Python元组操作实例分析【创建、赋值、更新、删除等】
Jul 24 Python
python basemap 画出经纬度并标定的实例
Jul 09 Python
正则给header的冒号两边参数添加单引号(Python请求用)
Aug 09 Python
浅谈Pytorch中的torch.gather函数的含义
Aug 18 Python
wxPython实现文本框基础组件
Nov 18 Python
python使用numpy实现直方图反向投影示例
Jan 17 Python
python 读txt文件,按‘,’分割每行数据操作
Jul 05 Python
Python软件包安装的三种常见方法
Jul 07 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
用libtemplate实现静态网页生成
2006/10/09 PHP
smarty+adodb+部分自定义类的php开发模式
2006/12/31 PHP
CodeIgniter扩展核心类实例详解
2016/01/20 PHP
js获取TreeView控件选中节点的Text和Value值的方法
2012/11/24 Javascript
图片上传判断及预览脚本的效果实例
2013/08/07 Javascript
js select option对象小结
2013/12/20 Javascript
kindeditor修复会替换script内容的问题
2015/04/03 Javascript
手机端页面rem宽度自适应脚本
2015/05/20 Javascript
js实现点击链接后延迟3秒再跳转的方法
2015/06/05 Javascript
jquery siblings获取同辈元素用法实例分析
2016/07/25 Javascript
几种二级联动案例(jQuery\Array\Ajax php)
2016/08/13 Javascript
微信小程序(应用号)简单实例应用及实例详解
2016/09/26 Javascript
基于vue2的table分页组件实现方法
2017/03/20 Javascript
一篇看懂vuejs的状态管理神器 vuex状态管理模式
2017/04/20 Javascript
深入理解jquery的$.extend()、$.fn和$.fn.extend()
2017/07/08 jQuery
node内置调试方法总结
2018/02/22 Javascript
React手稿之 React-Saga的详解
2018/11/12 Javascript
[50:01]Ti4 冒泡赛第二天 NEWBEE vs Titan
2014/07/15 DOTA
[01:30:15]DOTA2-DPC中国联赛 正赛 Ehome vs Aster BO3 第二场 2月2日
2021/03/11 DOTA
python爬虫入门教程之点点美女图片爬虫代码分享
2014/09/02 Python
Python中MySQL数据迁移到MongoDB脚本的方法
2016/04/28 Python
Python采用Django制作简易的知乎日报API
2016/08/03 Python
Python开发中爬虫使用代理proxy抓取网页的方法示例
2017/09/26 Python
python实现爬取图书封面
2018/07/05 Python
Python读取excel中的图片完美解决方法
2018/07/27 Python
Python列表(List)知识点总结
2019/02/18 Python
python爬虫之爬取百度音乐的实现方法
2019/08/24 Python
Python调用Windows API函数编写录音机和音乐播放器功能
2020/01/05 Python
tensorflow 查看梯度方式
2020/02/04 Python
法国二手手袋、手表和奢侈珠宝购物网站:Collector Square
2018/07/05 全球购物
super关键字的用法
2012/04/10 面试题
电子商务个人职业生涯规划范文
2014/02/12 职场文书
继承权公证书
2014/04/09 职场文书
2019年大学生职业生涯规划书最新范文
2019/03/25 职场文书
Mysql外键约束的创建与删除的使用
2022/03/03 MySQL
Python如何将list中的string转换为int
2022/07/15 Ruby