python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解


Posted in Python onFebruary 11, 2020

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

Python 相关文章推荐
跟老齐学Python之画圈还不简单吗?
Sep 20 Python
朴素贝叶斯算法的python实现方法
Nov 18 Python
Python中的True,False条件判断实例分析
Jan 12 Python
Python编程中使用Pillow来处理图像的基础教程
Nov 20 Python
Java Web开发过程中登陆模块的验证码的实现方式总结
May 25 Python
python绘制铅球的运行轨迹代码分享
Nov 14 Python
django上传图片并生成缩略图方法示例
Dec 11 Python
对numpy中轴与维度的理解
Apr 18 Python
python flask安装和命令详解
Apr 02 Python
Python模块 _winreg操作注册表
Feb 05 Python
Python requests设置代理的方法步骤
Feb 23 Python
Python文件夹批处理操作代码实例
Jul 21 Python
python 函数中的参数类型
Feb 11 #Python
python正则过滤字母、中文、数字及特殊字符方法详解
Feb 11 #Python
python3正则模块re的使用方法详解
Feb 11 #Python
Python版中国省市经纬度
Feb 11 #Python
Python终端输出彩色字符方法详解
Feb 11 #Python
Python连接Oracle之环境配置、实例代码及报错解决方法详解
Feb 11 #Python
利用python中集合的唯一性实现去重
Feb 11 #Python
You might like
详解PHP swoole process的使用方法
2017/08/26 PHP
php实现解析xml并生成sql语句的方法
2018/02/03 PHP
ExtJS 2.0实用简明教程 之Ext类库简介
2009/04/29 Javascript
php对mongodb的扩展(小试牛刀)
2012/11/11 Javascript
Jquery性能优化详解
2014/05/15 Javascript
让IE8浏览器支持function.bind()方法
2014/10/16 Javascript
浅谈javascript的调试
2015/01/28 Javascript
JavaScript获取当前网页最后修改时间的方法
2015/04/03 Javascript
基于javascript实现样式清新图片轮播特效
2016/03/30 Javascript
超链接怎么正确调用javascript函数
2016/05/23 Javascript
javascript正则表达式之分组概念与用法实例
2016/06/16 Javascript
深入理解jQuery.data() 的实现方式
2016/11/30 Javascript
jQuery实现滚动条滚动到子元素位置(方便定位)
2017/01/08 Javascript
jQuery插件FusionCharts实现的3D柱状图效果实例【附demo源码下载】
2017/03/03 Javascript
使用javascript做在线算法编程
2018/05/25 Javascript
微信小程序制作扭蛋机代码实例
2019/09/24 Javascript
[01:18:31]DOTA2-DPC中国联赛定级赛 LBZS vs Magma BO3第一场 1月10日
2021/03/11 DOTA
PyCharm代码整体缩进,反向缩进的方法
2018/06/25 Python
python实现创建新列表和新字典,并使元素及键值对全部变成小写
2019/01/15 Python
python处理大日志文件
2019/07/23 Python
Python 使用 docopt 解析json参数文件过程讲解
2019/08/13 Python
python超时重新请求解决方案
2019/10/21 Python
Django集成celery发送异步邮件实例
2019/12/17 Python
Django重设Admin密码过程解析
2020/02/10 Python
HTML5+CSS3实现无插件拖拽上传图片(支持预览与批量)
2017/01/05 HTML / CSS
美国网上眼镜商城:Zenni Optical
2016/11/20 全球购物
彪马法国官网:PUMA法国
2019/12/15 全球购物
FirstCry阿联酋儿童和婴儿产品网上购物:FirstCry.ae
2021/02/22 全球购物
几个人围成一圈的问题
2013/09/26 面试题
云冈石窟导游词
2015/02/04 职场文书
青岛导游词
2015/02/12 职场文书
惊天动地观后感
2015/06/10 职场文书
刘胡兰观后感
2015/06/16 职场文书
银行安全保卫工作总结
2015/08/10 职场文书
高中生社会实践心得体会
2016/01/14 职场文书
python多线程方法详解
2022/01/18 Python