python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解


Posted in Python onFebruary 11, 2020

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

Python 相关文章推荐
Python HTTP客户端自定义Cookie实现实例
Apr 28 Python
Python编程实现两个文件夹里文件的对比功能示例【包含内容的对比】
Jun 20 Python
详解python中executemany和序列的使用方法
Aug 12 Python
Python算法之图的遍历
Nov 16 Python
Python 查找list中的某个元素的所有的下标方法
Jun 27 Python
python linecache 处理固定格式文本数据的方法
Jan 08 Python
python爬虫爬取微博评论案例详解
Mar 27 Python
分享8个非常流行的 Python 可视化工具包
Jun 05 Python
Python pandas用法最全整理
Aug 04 Python
python接口自动化如何封装获取常量的类
Dec 24 Python
Python打开文件、文件读写操作、with方式、文件常用函数实例分析
Jan 07 Python
python接口测试返回数据为字典取值方式
Feb 12 Python
python 函数中的参数类型
Feb 11 #Python
python正则过滤字母、中文、数字及特殊字符方法详解
Feb 11 #Python
python3正则模块re的使用方法详解
Feb 11 #Python
Python版中国省市经纬度
Feb 11 #Python
Python终端输出彩色字符方法详解
Feb 11 #Python
Python连接Oracle之环境配置、实例代码及报错解决方法详解
Feb 11 #Python
利用python中集合的唯一性实现去重
Feb 11 #Python
You might like
Zerg基本策略
2020/03/14 星际争霸
亚洲咖啡有什么?亚洲咖啡产地介绍 亚洲咖啡有什么特点?
2021/03/05 新手入门
百度实时推送api接口应用示例
2014/10/21 PHP
老生常谈PHP数组函数array_merge(必看篇)
2017/05/25 PHP
基于JQuery.timer插件实现一个计时器
2010/04/25 Javascript
safari,opera嵌入iframe页面cookie读取问题解决方法
2010/06/23 Javascript
通过正则格式化url查询字符串实现代码
2012/12/28 Javascript
父页面显示遮罩层弹出半透明状态的dialog
2014/03/04 Javascript
jquery设置按钮停顿3秒不可用
2014/03/07 Javascript
jquery easyui 对于开始时间小于结束时间的判断示例
2014/03/22 Javascript
jquery中one()方法的用法实例
2015/01/16 Javascript
jQuery实现图片左右滚动特效
2020/04/20 Javascript
jQuery实现横向带缓冲的水平运动效果(附demo源码下载)
2016/01/29 Javascript
简述JavaScript提交表单的方式 (Using JavaScript Submit Form)
2016/03/18 Javascript
Angularjs 实现一个幻灯片示例代码
2016/09/08 Javascript
JavaScript this关键字的深入详解
2021/01/14 Javascript
vue 数据双向绑定的实现方法
2021/03/04 Vue.js
[05:05]第三天的dota2
2013/07/29 DOTA
python字典序问题实例
2014/09/26 Python
centos6.7安装python2.7.11的具体方法
2017/01/16 Python
利用django如何解析用户上传的excel文件
2017/07/24 Python
Django原生sql也能使用Paginator分页的示例代码
2017/11/15 Python
Python基于列表模拟堆栈和队列功能示例
2018/01/05 Python
Django框架中序列化和反序列化的例子
2019/08/06 Python
经验丰富程序员才知道的8种高级Python技巧
2020/07/27 Python
HTML页面中添加Canvas标签示例
2015/01/01 HTML / CSS
Html5 webRTC简单实现视频调用的示例代码
2020/09/23 HTML / CSS
全球领先美式家具品牌:Ashley爱室丽家居
2017/08/07 全球购物
英国床垫和床架购物网站:Bedman
2019/11/04 全球购物
Trench London官方网站:高级风衣和意大利皮夹克
2020/07/11 全球购物
年度考核自我鉴定
2013/11/09 职场文书
网络管理员岗位职责
2014/03/17 职场文书
工会工作先进事迹
2014/08/18 职场文书
安全生产警示教育活动总结
2015/05/09 职场文书
小学美术教学反思
2016/02/17 职场文书
手把手教你制定暑期学习计划,让你度过充实的暑假
2019/08/22 职场文书