浅谈Python中的正则表达式


Posted in Python onJune 28, 2021

Python里的正则表达式

Python里的正则表达式,无需下载外部模块,只需要引入自带模块re

import re

官方re模块文档: https://docs.python.org/zh-cn/3.9/library/re.html

同时,Python的正则表达式是PCRE标准的,相较于广泛应用在Unix上的POSIX标准,还是有些区别的(主要是简化)

基本方法

观察re源码,其主要的接口方法有:

  • match(…):从字符串的起始位置匹配一个模式,如果无法匹配成功,则match()就返回none
  • fullmatch(…):是match函数的完全匹配(从字符串开头到结尾)版本
  • search(…):扫描整个字符串并(默认)返回第一个成功的匹配
  • sub(…):用于替换字符串中的匹配项
  • subn(…):和sub(…)类似,但返回值多一个替换次数
  • split(…):分割字符串,返回列表形式f
  • indall(…):在字符串中找到正则表达式所匹配的所有子串,并返回一个列表形式,如果没有找到匹配的,则返回空列表。finditer(…):和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
  • compile(…):用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用
  • purge(…):用于清除正则表达式缓存

其中,本文主要会介绍的方法为:match(...)search(...)findall(...)spilt(...)。不过,方法都类似,会这些方法,剩下的也大同小异。

元字符与预定义字符集

我认为,元字符算和预定义字符集是正则表达式的核心内容了。

预定义字符集:

预定义字符 说明
\w 匹配下划线“”或任何字母(a-zA-Z)与数字(0-9)等价于a-zA-Z0-9
\W 与\w相反,匹配特殊字符等价于**^a-zA-Z0-9_**
\s 匹配任意的空白字符,等价于**<空格>\r\n\f\v**
\S 与\s相反,匹配任意非空白字符的字符,等价于**^\s**
\d 匹配任意数字,等价于0-9
\D 与\d相反,匹配任意非数字的字符,等价于**^\d**
\b 匹配单词的边界
\B 与\b相反,匹配不出现在单词边界的元素
\A 仅匹配字符串开头,等价于^
\Z 仅匹配字符串结尾,等价于$

元字符:

元字符 说明
. 匹配任何一个字符(除换行符**\n**除外)
^ 脱字符,匹配行的开始
$ 美元符,匹配行的结束
| 连接多个可选元素,匹配表达式中出现的任意子项
[] 字符组,匹配其中的出现的任意一个字符
- 连字符,表示范围,如“1-5”等价于“1、2、3、4、5”
? 匹配其前导元素0次或1次
* 匹配其前导元素0次或多次
+ 匹配其前导元素1次或多次
{n}/{m,n} 匹配其前导元素n次/匹配其前导元素m~n次
() 在模式中划分出子模式,并保存子模式的匹配结果

一般来说,使用+?*{n}{n,}{n,m}时,即激活正则表达式的贪婪模式。可以在其后加入?来取消贪婪模式。

贪婪模式

一般来见,重复多次匹配就是贪婪模式,也就是尽可能匹配多个字符。

比如:

import re

lineOne = "Who is the Mintimate"
# 贪婪模式
print(re.findall(r'\w+',lineOne))
# 非贪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

输出:

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到,使用**?**来激活非贪婪模式,基本是让多次匹配无效化。

捕获与非捕获括号

之所以捕获与非捕获括号单独出来讲,其实是我当时学习正则时候,这边卡了很久。

  • 捕获括号:()
  • 非捕获括号:(?:)

捕获括号其实就是代码里的优先级一样,比如:

2*(2+3)=10

之所以,我们会先算2+3,是因为有**()的存在。正则里也是,如果存在()**,则会优先捕获()内的内容:

import re

lineOne = "Who is Mintimate?"
# 未使用捕获括号
print(re.findall(r'Mintimate',lineOne))
# 使用捕获括号
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕获括号
print(re.findall(r'M(?:intimate)',lineOne))

输出结果:

['Mintimate']
['intimate']
['Mintimate']

而非捕获括号主要与|同时使用:

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

输出结果:

['Mintimate', 'Minimen']

正则匹配(判断目标格式)

主要讲解Python下的几个方法使用方法。

match匹配

match(…)即:

re.match(pattern, string, flags=0)

参数的具体含义如下:

  • pattern:表示需要传入的正则表达式。
  • string:表示待匹配的目标文本。
  • flags:表示使用的匹配模式。如:是否区分大小写,多行匹配等等。可省略,默认为0

使用match进行正则匹配,可以方便我们对字符串内类型的判断,如:是否为纯数字或第一位数否为数字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中,\d为匹配0-9的数字类型,而+是匹配出现1次或多次。

正则搜索(提取/分组字符)

正则搜索,常用的是search和findall方法了,方法体均一样:

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march类似,均是匹配字符串内容,不符合返回None。但是主要区别:

  • re.match() 从第一个字符开始找, 如果第一个字符就不匹配就返回None, 不继续匹配. 用于判断字符串开头或整个字符串是否匹配,速度快
  • re.search() 会整个字符串查找,直到找到一个匹配

代码中更形象:

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
# 使用match搜索纯数字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索纯数字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索复合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索复合字符串
print(re.search(r"\d", lineTwo))

其输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 1), match='7'>
None
<re.Match object; span=(31, 32), match='7'>

而findall,在上match和search的前提下,进一步封装。相对于强化版的match和search

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

输出结果:

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提取:

print(re.findall(r"\d+",lineTwo))

输出:

['7704194']

方便在数据处理时,快速提取连续数字?( ̄? ̄"")?。

操作实例

单单看文档,总是不实际。这边我演示几个正则表达式的实例(我根据我自己使用环境所写,可能在其他特殊环境有问题

URL去参

在写爬虫时候,有时候得到的URL是带标签(#)或者Get请求(?id=*)的,但是有时候我们需要去除这些参数,得到纯净的URL地址,这个时候可以用正则表达式:

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果:

['https://www.mintimate.cn']
['https://www.mintimate.cn']

这里主要的细节:

  • https?:匹配http或https
  • (??:非捕获括号,用于和后续|进行配合

IPv4匹配

用正则匹配IPv4就比较复杂了,我是这样写的:

import re

lineOne = "192.168.1.1"
lineTwo="这不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

输出结果为:

<re.Match object; span=(0, 11), match='192.168.1.1'>
None

解释一下:

  • 末尾的{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重复三次匹配,
  • 而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我们可以拆分为两部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位为2开头、第二位为1到5或1到4、最后一位为0到9;后者是匹配第一位为0或1,且?代表可以不存在这一项,后两位为两位0-9的数字。

效率问题

使用正则表达式,很大程度是为了精简代码,但是存在一下问题:

  • 代码可读性降低:普通的匹配数字还好,但是如果都像IPv4这样的,一定程度可读性就降低了,维护成本高(虽然后期一般不回去改)
  • 解析时间长:这个还是要看具体代码,但是总的来说:贪婪模式相比懒惰模式以及独占模式有一个回溯过程,消耗资源会更多。

解决方案:

  • 一条正则表达式规则如果运用上百次,可以使用compile()方法进行预先加载。
  • 减少使用贪婪模式。

总结

正则表达式是一个很重要的工具,尤其是在Python数据处理时,能高效处理问题事件。看完这篇文章后,应该对正则表达式不在陌生,感兴趣可以自己写个正则规则,如:强密码判断、IPv6的判断等

另外,因为篇幅所限,更多Python内的细则,可以参考官方文档:

https://docs.python.org/zh-cn/3.9/library/re.html

到此这篇关于浅谈Python中的正则表达式的文章就介绍到这了,更多相关Python正则表达式内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 判断自定义对象类型
Mar 21 Python
Python使用Scrapy爬取妹子图
May 28 Python
Tensorflow简单验证码识别应用
May 25 Python
Python 普通最小二乘法(OLS)进行多项式拟合的方法
Dec 29 Python
Python 学习教程之networkx
Apr 15 Python
python字符串和常用数据结构知识总结
May 21 Python
python自动化UI工具发送QQ消息的实例
Aug 27 Python
python模块常用用法实例详解
Oct 17 Python
Python函数式编程指南:对生成器全面讲解
Nov 19 Python
python cv2截取不规则区域图片实例
Dec 21 Python
基于Python3.6中的OpenCV实现图片色彩空间的转换
Feb 03 Python
Python first-order-model实现让照片动起来
Jun 25 Python
python中subplot大小的设置步骤
手把手教你实现PyTorch的MNIST数据集
PyMongo 查询数据的实现
Jun 28 #Python
浅谈哪个Python库才最适合做数据可视化
总结Python变量的相关知识
详解非极大值抑制算法之Python实现
Python实现生活常识解答机器人
You might like
PHP自动生成月历代码
2006/10/09 PHP
php生成html文件方法总结
2014/12/01 PHP
PHP中的常见魔术方法功能作用及用法实例
2015/07/01 PHP
PHP实现对数组分页处理实例详解
2017/02/07 PHP
jquery 与NVelocity 产生冲突的解决方法
2011/06/13 Javascript
JS数组的遍历方式for循环与for...in
2014/07/31 Javascript
javascript中Math.random()使用详解
2015/04/15 Javascript
javascript控制层显示或隐藏的方法
2015/07/22 Javascript
数据分析软件之FineReport教程:[5]参数界面JS(全)
2015/08/13 Javascript
WEB前端开发都应知道的jquery小技巧及jquery三个简写
2015/11/15 Javascript
轮播图组件js代码
2016/08/08 Javascript
Bootstrap table 定制提示语的加载过程
2017/02/20 Javascript
vue2.0父子组件间通信的实现方法
2017/04/19 Javascript
JavaScript输入分钟、秒倒计时技巧总结(附代码)
2017/08/17 Javascript
浅谈Express异步进化史
2017/09/09 Javascript
浅谈Vue.js组件(二)
2019/04/09 Javascript
小程序云开发之用户注册登录
2019/05/18 Javascript
JS数组方法join()用法实例分析
2020/01/18 Javascript
Vuex的API文档说明详解
2020/02/05 Javascript
[02:08]2018年度CS GO枪械皮肤设计大赛优秀作者-完美盛典
2018/12/16 DOTA
[01:04:08]完美世界DOTA2联赛PWL S3 INK ICE vs GXR 第一场 12.16
2020/12/18 DOTA
Python多进程编程技术实例分析
2014/09/16 Python
python通过百度地图API获取某地址的经纬度详解
2018/01/28 Python
Python中的asyncio代码详解
2019/06/10 Python
Python实现FM算法解析
2019/06/18 Python
33个Python爬虫项目实战(推荐)
2019/07/08 Python
Python使用scrapy爬取阳光热线问政平台过程解析
2019/08/14 Python
浅谈pytorch grad_fn以及权重梯度不更新的问题
2019/08/20 Python
TensorFlow Autodiff自动微分详解
2020/07/06 Python
html5 实现客户端验证上传文件的大小(简单实例)
2016/05/15 HTML / CSS
moosejaw旗下的户外商品促销网站:Mountain Steals
2017/02/27 全球购物
美国知名的网上鞋类及相关服装零售商:Shoes.com
2017/05/06 全球购物
德国最大的设计师鞋网上商店:Budapester
2017/12/07 全球购物
捐书活动总结
2014/05/04 职场文书
政府领导干部个人对照检查材料思想汇报
2014/09/24 职场文书
群众路线教育实践活动个人对照检查材料思想汇报(社区班子)
2014/10/06 职场文书