利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python字符串转换成浮点数函数分享
Jul 24 Python
Python正则表达式使用经典实例
Jun 21 Python
Python解惑之整数比较详解
Apr 24 Python
Python实现向服务器请求压缩数据及解压缩数据的方法示例
Jun 09 Python
Python列表list解析操作示例【整数操作、字符操作、矩阵操作】
Jul 25 Python
详谈套接字中SO_REUSEPORT和SO_REUSEADDR的区别
Apr 28 Python
python opencv 实现对图像边缘扩充
Jan 19 Python
Python pysnmp使用方法及代码实例
Aug 24 Python
python super()函数的基本使用
Sep 10 Python
Django用户认证系统如何实现自定义
Nov 12 Python
Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)
Jun 07 Python
python实现学生信息管理系统(面向对象)
Jun 05 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
初识PHP
2014/09/28 PHP
Yii 实现数据加密和解密
2021/03/09 PHP
Jquery实战_读书笔记2 选择器
2010/01/22 Javascript
JS中for循序中延迟加载动态效果的具体实现
2013/08/18 Javascript
抛弃Nginx使用nodejs做反向代理服务器
2014/07/17 NodeJs
js生成验证码并直接在前端判断
2015/05/15 Javascript
简单介绍JavaScript数据类型之隐式类型转换
2015/12/28 Javascript
js实现按钮控制带有停顿效果的图片滚动
2016/08/30 Javascript
JQueryEasyUI之DataGrid数据显示
2016/11/23 Javascript
jQuery动态生成不规则表格(前后端)
2017/02/21 Javascript
JavaScript登录记住密码操作(超简单代码)
2017/03/22 Javascript
Vue 拦截器对token过期处理方法
2018/01/23 Javascript
vue 中滚动条始终定位在底部的方法
2018/09/03 Javascript
使用node搭建自动发图文微博机器人的方法
2019/03/22 Javascript
详解element-ui中表单验证的三种方式
2019/09/18 Javascript
JavaScript进阶(一)变量声明提升实例分析
2020/05/09 Javascript
Javascript原型链及instanceof原理详解
2020/05/25 Javascript
[30:00]完美世界DOTA2联赛PWL S2 Rebirth vs LBZS 第二场 11.28
2020/12/01 DOTA
[01:00:17]DOTA2-DPC中国联赛 正赛 SAG vs Dynasty BO3 第二场 1月25日
2021/03/11 DOTA
Python中的字典遍历备忘
2015/01/17 Python
python实现文本去重且不打乱原本顺序
2016/01/26 Python
深入解析Python中的__builtins__内建对象
2016/06/21 Python
Djang的model创建的字段和参数详解
2019/07/27 Python
Django admin.py 在修改/添加表单界面显示额外字段的方法
2019/08/22 Python
Python将列表中的元素转化为数字并排序的示例
2019/12/25 Python
Tensorflow轻松实现XOR运算的方式
2020/02/03 Python
python 引用传递和值传递详解(实参,形参)
2020/06/05 Python
泰国综合购物网站:Lazada泰国
2018/04/09 全球购物
毕业自我鉴定怎么写
2014/03/25 职场文书
植树节口号
2014/06/21 职场文书
2014乡党委副书记党建工作汇报材料
2014/11/02 职场文书
酒店员工辞职信范文
2015/02/28 职场文书
大学生个人简历自荐信
2015/03/06 职场文书
Python+Appium新手教程
2021/04/17 Python
用python批量解压带密码的压缩包
2021/05/31 Python
MySql重置root密码 --skip-grant-tables
2022/04/11 MySQL