编程 Python

Python正则表达式高级使用方法汇总

Posted in Python onJune 18, 2020

正则表达式是一个以简单直观的方式匹配指定文本信息从而达到查找、替换等操作的目的。正则表达式以其简单而高效的特点使得其在数据分析和数据验证方面应用广泛。

对于简单的正则表达式可以直接百度之，这里重点引荐下‘特殊'操作。

1.非贪婪模式 - {x,y}?

非贪婪模式是指在使用正则匹配时，尽可能少的匹配（默认是贪婪模式，即：尽可能多的匹配）。例：

>>> re.search(r'[\d]{2,5}?','091234568')

<_sre.SRE_Match object; span=(0, 2), match='09'>

在这里{2,5}?匹配只是匹配2-5个[\d]时只要满足2（最少的）个就好，在看看贪婪模式：

>>> re.search(r'[\d]{2,5}','091234568')
<_sre.SRE_Match object; span=(0, 5), match='09123'>

这时候，匹配2-5个[\d]时，默认匹配最多的5个。

注意：贪婪和非贪婪模式的区别就是重复操作符后有没有？字符

2.分组

正则表达式提供了一个机制将表达式分组，匹配的结果也将按照表达式单独分组。例：

>>> m = re.search(r'(\d{3})-(\d{5})','029-25642')
>>> m.group()
'029-25642'
>>> m.groups()
('029', '25642')
>>> m.group(2)
'25642'

可以通过m.groups()看到分组匹配结果，通过m.group(index)查看具体编号的分组结果（编号从1开始，0是完整的匹配）。那分组有什么用呢，好像也没什么特殊的含义，不急，下面会用到。

3.引用分组（回溯） - \N

有这么一种情况，比如假设我要找出一个html文本中的所有<a></a>标签，怎么办？试试这样：

>>> re.search(r'<(\w+)>.+</(\w+)>','<a>this is a demo</e>')
<_sre.SRE_Match object; span=(0, 21), match='<a>this is a demo</e>'>

奇怪的事情来了，为什么<a></e>被匹配成功了，显然结果并不是想要的，那怎么才能只匹配<a></a>而过滤掉其他的呢（比如<a></e>）？答案就是引用分组，例：

>>> re.search(r'<(\w+)>.+</\1>','<a>this is a demo</e><p>demo two</p>')
<_sre.SRE_Match object; span=(21, 36), match='<p>demo two</p>'>

这里\1是关键，意思就是当前位置匹配的结果需要和第一个分组匹配的结果一致，或者说第一个分组的匹配结果期望在这里再次出现。以此类推。该方法最多只能匹配前99个分组。

4.分组命名 - (?P<name>.*)

分组命名最开始由python引入，比如Django路由中会用到。分组命名的好处是方便，直接使用名字比编号要简单而且不会变化，例：

>>> m = re.search(r'(?P<first_name>\d{3})-(?P<second_name>\d{4})','029-8967')
>>> m.group('first_name')
'029'
>>> m.groupdict()
 {'first_name': '029', 'second_name': '8967'}

当然，命名分组仍然是编号分组，依然可以使用编号进行查找分组。

5.先行断言 - X(?!Y)、X(?=Y)

假设有这么一种情况，要查找所有163信箱的文本，也就是@163.com结尾的所有email账号信息，也就是说不要@163.com这部分，但是其还要参与匹配。这就用到了先行断言，也即基于之后的内容是否存在接收或拒绝一个匹配，而不需要接下来的内容作为匹配的一部分。例：

>>> re.search(r'h(?!e)','hello home!')
<_sre.SRE_Match object; span=(6, 7), match='h'>

h(?!e)表示匹配h，而且h后面不能是e，此处匹配成功的是home，但是只返回h

>>> re.search(r'h(?=e)','hello home!')
<_sre.SRE_Match object; span=(0, 1), match='h'>

h(?=e)表示匹配he，此处匹配成功的是hello，但是只返回h

6.标记

不区分大小写：re.IGNORECASE（简写re.I）-使得正则表达式不区分大小写
点匹配换行符：re.DOTALL（简写re.S）-使得 . 符号可以匹配换行符
多行模式：re.MULTILINE（简写re.M）-使得^$字符可以匹配任意行的开始与结束
详细模式：re.VERBOSE（简写re.X）-使得正则表达式可以换行书写，且可以加入注释
调试模式：re.DEBUG-将调试信息输出到sys.stderr
使用多个标记时，使用|分隔，如re.S|re.M

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python正则表达式高级使用方法汇总

- Author -

guran0822

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

理解Python中的类与实例

Apr 27 Python

python中如何正确使用正则表达式的详细模式（Verbose mode expression)

Nov 08 Python

详解python中的 is 操作符

Dec 26 Python

python实现推箱子游戏

Mar 25 Python

Python3.5 Pandas模块之Series用法实例分析

Apr 23 Python

解决python replace函数替换无效问题

Jan 18 Python

Python实现计算长方形面积(带参数函数demo)

Jan 18 Python

python 工具字符串转numpy浮点数组的实现

Mar 14 Python

Python3 mmap内存映射文件示例解析

Mar 23 Python

Django Xadmin多对多字段过滤实例

Apr 07 Python

有趣的Python图片制作之如何用QQ好友头像拼接出里昂

Apr 22 Python

Python切片列表字符串如何实现切换

Aug 06 Python

将tf.batch_matmul替换成tf.matmul的实现

Jun 18 #Python

新手常见Python错误及异常解决处理方案

Jun 18 #Python

Python之Matplotlib文字与注释的使用方法

Jun 18 #Python

Matplotlib自定义坐标轴刻度的实现示例

Jun 18 #Python

浅谈keras中的batch_dot,dot方法和TensorFlow的matmul

Jun 18 #Python

PyCharm中配置PySide2的图文教程

Jun 18 #Python

python属于软件吗

Jun 18 #Python

You might like

html静态页面调用php文件的方法

2014/11/13 PHP

PHP simplexml_import_dom()函数讲解

2019/02/03 PHP

js调试系列断点与动态调试[基础篇]

2014/06/18 Javascript

浅谈JavaScript中的Math.atan()方法的使用

2015/06/14 Javascript

jQuery表单验证功能实例

2015/08/28 Javascript

JavaScript中Date对象的常用方法示例

2015/10/24 Javascript

jQuery设置Cookie及删除Cookie实例分析

2016/04/15 Javascript

bootstrap PrintThis打印插件使用详解

2017/02/20 Javascript

JS+HTML5实现图片在线预览功能

2017/07/22 Javascript

vue实现路由监听和参数监听

2019/10/29 Javascript

arcgis.js控制地图地体的显示范围超出区域自动弹回(实现思路)

2021/01/28 Javascript

[00:11]战神迅矛

2019/03/06 DOTA

Python性能优化的20条建议

2014/10/25 Python

python pandas 对series和dataframe的重置索引reindex方法

2018/06/07 Python

Python实现数据可视化看如何监控你的爬虫状态【推荐】

2018/08/10 Python

在cmd中查看python的安装路径方法

2019/07/03 Python

Tensorflow不支持AVX2指令集的解决方法

2020/02/03 Python

Selenium元素定位的30种方式(史上最全)

2020/05/11 Python

Python faker生成器生成虚拟数据代码实例

2020/07/20 Python

python openCV自制绘画板

2020/10/27 Python

css3背景_动力节点Java学院整理

2017/07/11 HTML / CSS

CSS3模拟动画下拉菜单效果

2017/04/12 HTML / CSS

匡威荷兰官方网站：Converse荷兰

2018/10/24 全球购物

技校个人求职信范文

2014/01/25 职场文书

培训讲师岗位职责

2014/04/13 职场文书

初中学生期末评语

2014/04/24 职场文书

会员活动策划方案

2014/08/19 职场文书

维护民族团结演讲稿

2014/08/27 职场文书

2014流动人口计划生育工作总结

2014/12/20 职场文书

领导新年致辞2016

2015/07/29 职场文书

安全生产学习心得体会

2016/01/18 职场文书

2019最新版劳务派遣管理制度

2019/08/16 职场文书

导游词之无锡梅园

2019/11/28 职场文书

Redis遍历所有key的两个命令(KEYS 和 SCAN)

2021/04/12 Redis

新手入门Mysql--sql执行过程

2021/06/20 MySQL

Python Pygame实战之塔防游戏的实现

2022/03/17 Python