利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
对python中的logger模块全面讲解
Apr 28 Python
通过Pandas读取大文件的实例
Jun 07 Python
python中的for循环
Sep 28 Python
python3使用pandas获取股票数据的方法
Dec 22 Python
python DataFrame 取差集实例
Jan 30 Python
Python selenium根据class定位页面元素的方法
Feb 26 Python
python实现代码统计器
Sep 19 Python
Django REST 异常处理详解
Jul 15 Python
Python常用base64 md5 aes des crc32加密解密方法汇总
Nov 06 Python
Python如何使用神经网络进行简单文本分类
Feb 25 Python
使用python向MongoDB插入时间字段的操作
May 18 Python
Pygame Time时间控制的具体使用详解
Nov 17 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
php的webservice的wsdl的XML无法显示问题的解决方法
2014/03/11 PHP
Codeigniter+PHPExcel实现导出数据到Excel文件
2014/06/12 PHP
PHP实现防盗链的方法分析
2017/07/25 PHP
javascript while语句和do while语句的区别分析
2007/12/08 Javascript
ExtJS的FieldSet的column列布局
2009/11/20 Javascript
与jquery serializeArray()一起使用的函数,主要来方便提交表单
2011/01/31 Javascript
jquery中的ajax方法怎样通过JSONP进行远程调用
2014/05/04 Javascript
Jquery中offset()和position()的区别分析
2015/02/05 Javascript
每天一篇javascript学习小结(面向对象编程)
2015/11/20 Javascript
浅谈jQuery 选择器和dom操作
2016/06/07 Javascript
js中开关变量使用实例
2017/02/24 Javascript
js判断文件类型大小并给出提示的实现方法
2018/01/03 Javascript
Bootstrap treeview实现动态加载数据并添加快捷搜索功能
2018/01/07 Javascript
浅析Angular19 自定义表单控件
2018/01/31 Javascript
实战node静态文件服务器的示例代码
2018/03/08 Javascript
详解Vue中Axios封装API接口的思路及方法
2020/10/10 Javascript
Python中使用摄像头实现简单的延时摄影技术
2015/03/27 Python
Python的Django REST框架中的序列化及请求和返回
2016/04/11 Python
python创造虚拟环境方法总结
2019/03/04 Python
在pycharm中实现删除bookmark
2020/02/14 Python
浅谈在django中使用filter()(即对QuerySet操作)时踩的坑
2020/03/31 Python
Python使用Selenium模拟浏览器自动操作功能
2020/09/08 Python
Python下使用Trackbar实现绘图板
2020/10/27 Python
瑞士设计师家具和家居饰品网上商店:Bruno Wickart
2019/03/18 全球购物
什么叫做SQL注入,如何防止
2016/10/04 面试题
java程序员面试交流
2012/11/29 面试题
J2EE是技术还是平台还是框架
2016/08/14 面试题
新闻专业大学生找工作的自我评价
2013/10/30 职场文书
解放思想演讲稿
2014/09/11 职场文书
简单租房协议书(范本)
2014/10/13 职场文书
个人先进材料范文
2014/12/30 职场文书
会议通知
2015/04/15 职场文书
2016年度继续教育学习心得体会
2016/01/19 职场文书
2016年党支部公开承诺书
2016/03/25 职场文书
MySQL插入数据与查询数据
2022/03/25 MySQL
Java死锁的排查
2022/05/11 Java/Android