python的re模块使用方法详解


Posted in Python onJuly 26, 2019

一、正则表达式的特殊字符介绍

正则表达式
^      匹配行首                  
$      匹配行尾                  
.      任意单个字符          
[]     匹配包含在中括号中的任意字符
[^]     匹配包含在中括号中的字符之外的字符
[-]     匹配指定范围的任意单个字符
?     匹配之前项的1次或者0次
+      匹配之前项的1次或者多次
*      匹配之前项的0次或者多次
{n}     匹配之前项的n次
{m,n}    匹配之前项最大n次,最小m次
{n,}    配置之前项至少n次

二、re模块的方法介绍

1、匹配类方法

a、findall方法

# findall方法,该方法在字符串中查找模式匹配,将所有的匹配字符串以列表的形式返回,如果文本中没有任何字符串匹配模式,则返回一个空的列表,
# 如果有一个子字符串匹配模式,则返回包含一个元素的列表,所以,无论怎么匹配,我们都可以直接遍历findall返回的结果而不会出错,这对工程师
# 编写程序来说,减少了异常情况的处理,代码逻辑更加简洁
 
# re.findall() 用来输出所有符合模式匹配的子串
 
re_str = "hello this is python 2.7.13 and python 3.4.5"
 
pattern = "python [0-9]\.[0-9]\.[0-9]"
res = re.findall(pattern=pattern,string=re_str)
print(res)
 
# ['python 2.7.1', 'python 3.4.5']
 
pattern = "python [0-9]\.[0-9]\.[0-9]{2,}"
res = re.findall(pattern=pattern,string=re_str)
print(res)
 
# ['python 2.7.13']
 
 
pattern = "python[0-9]\.[0-9]\.[0-9]{2,}"
res = re.findall(pattern=pattern,string=re_str)
print(res)
 
# []
 
# re.findall() 方法,返回一个列表,如果匹配到的话,列表中的元素为匹配到的子字符串,如果没有匹配到,则返回一个空的列表
 
re_str = "hello this is python 2.7.13 and Python 3.4.5"
 
pattern = "python [0-9]\.[0-9]\.[0-9]"
res = re.findall(pattern=pattern,string=re_str,flags=re.IGNORECASE)
print(res)
 
# ['python 2.7.1', 'Python 3.4.5']
 
# 设置标志flags=re.IGNORECASE,意思为忽略大小写

b、编译的方式使用正则表达式

# 我们一般采用编译的方式使用python的正则模块,如果在大量的数据量中,编译的方式使用正则性能会提高很多,具体读者们可以可以实际测试
re_str = "hello this is python 2.7.13 and Python 3.4.5"
re_obj = re.compile(pattern = "python [0-9]\.[0-9]\.[0-9]",flags=re.IGNORECASE)
res = re_obj.findall(re_str)
print(res)

c、match方法

# match方法,类似于字符串中的startwith方法,只是match应用在正则表达式中更加强大,更富有表现力,match函数用以匹配字符串的开始部分,如果模式
# 匹配成功,返回一个SRE_Match类型的对象,如果模式匹配失败,则返回一个None,因此对于普通的前缀匹配,他的用法几乎和startwith一模一样,例如我
# 们要判断data字符串是否以what和是否以数字开头
s_true = "what is a boy"
s_false = "What is a boy"
re_obj = re.compile("what")
 
print(re_obj.match(string=s_true))
# <_sre.SRE_Match object; span=(0, 4), match='what'
 
print(re_obj.match(string=s_false))
# None
 
s_true = "123what is a boy"
s_false = "what is a boy"
 
re_obj = re.compile("\d+")
 
print(re_obj.match(s_true))
# <_sre.SRE_Match object; span=(0, 3), match='123'>
 
print(re_obj.match(s_true).start())
# 0
print(re_obj.match(s_true).end())
# 3
print(re_obj.match(s_true).string)
# 123what is a boy
print(re_obj.match(s_true).group())
# 123
 
 
print(re_obj.match(s_false))
# None

d、search方法

# search方法,模式匹配成功后,也会返回一个SRE_Match对象,search方法和match的方法区别在于match只能从头开始匹配,而search可以从
# 字符串的任意位置开始匹配,他们的共同点是,如果匹配成功,返回一个SRE_Match对象,如果匹配失败,返回一个None,这里还要注意,
# search仅仅查找第一次匹配,也就是说一个字符串中包含多个模式的匹配,也只会返回第一个匹配的结果,如果要返回所有的结果,最简单
# 的方法就是findall方法,也可以使用finditer方法

e、finditer方法

# finditer返回一个迭代器,遍历迭代器可以得到一个SRE_Match对象,比如下面的例子
re_str = "what is a different between python 2.7.14 and python 3.5.4"
 
re_obj = re.compile("\d{1,}\.\d{1,}\.\d{1,}")
 
for i in re_obj.finditer(re_str):
  print(i)
 
# <_sre.SRE_Match object; span=(35, 41), match='2.7.14'>
# <_sre.SRE_Match object; span=(53, 58), match='3.5.4'>

2、修改类方法介绍

a、sub方法

# re模块sub方法类似于字符串中的replace方法,只是sub方法支持使用正则表达式,所以,re模块的sub方法使用场景更加广泛
re_str = "what is a different between python 2.7.14 and python 3.5.4"
 
re_obj = re.compile("\d{1,}\.\d{1,}\.\d{1,}")
 
print(re_obj.sub("a.b.c",re_str,count=1))
# what is a different between python a.b.c and python 3.5.4
 
print(re_obj.sub("a.b.c",re_str,count=2))
# what is a different between python a.b.c and python a.b.c
 
print(re_obj.sub("a.b.c",re_str))
# what is a different between python a.b.c and python a.b.c

b、split方法

# re模块的split方法和python字符串中的split方法功能是一样的,都是将一个字符串拆分成子字符串的列表,区别在于re模块的split方法能够
# 使用正则表达式
# 比如下面的例子,使用. 空格 : !分割字符串,返回的是一个列表
re_str = "what is a different between python 2.7.14 and python 3.5.4 USA:NewYork!Zidan.FRA"
 
re_obj = re.compile("[. :!]")
 
print(re_obj.split(re_str))
# ['what', 'is', 'a', 'different', 'between', 'python', '2', '7', '14', 'and', 'python', '3', '5', '4', 'USA', 'NewYork', 'Zidan', 'FRA']

c、大小写不敏感设置

# 3、大小写不敏感
 
# re.compile(flags=re.IGNORECASE)

d、非贪婪匹配

# 4、非贪婪匹配,贪婪匹配总是匹配到最长的那个字符串,相应的,非贪婪匹配是匹配到最小的那个字符串,只需要在匹配字符串的时候加一个?即可
 
# 下面的例子,注意两个.
s = "Beautiful is better than ugly.Explicit is better than impliciy."
 
 
re_obj = re.compile("Beautiful.*y\.")
 
print(re_obj.findall(s))
# ['Beautiful is better than ugly.Explicit is better than implicit.']
 
re_obj = re.compile("Beautiful.*?\.")
 
print(re_obj.findall(s))
# ['Beautiful is better than ugly.']

e、在正则匹配字符串中加一个小括号,会有什么的效果呢?

如果是要配置一个真正的小括号,那么就需要转义符,下面的例子大家仔细看下,注意下search方法返回的对象的group(1)这个方法是报错的

import re
s = "=aa1239d&&& 0a ()--"
 
# obj = re.compile("\(\)")
# search
# rep = obj.search(s)
# print(rep)
# <_sre.SRE_Match object; span=(15, 17), match='()'>
# print(rep.group(1))
# IndexError: no such group
# print(rep.group())
# ()
# findall
 
rep = obj.findall(s)
print(rep)
# ['()']

如果是要返回括号中匹配的字符串中,则该小括号不需要转义符,findall方法返回的是小伙好中匹配到的字符串,search.group()方法的返回的整个模式匹配到字符串,search.group(1)这个是匹配第一个小括号中的模式匹配到的字符串,search.group(2)这个是匹配第二个小括号中的模式匹配到的字符串,以此类推

s = "=aa1239d&&& 0a ()--"
rep = re.compile("\w+(&+)")
 
print(rep.findall(s))
# ['&&&']
print(rep.search(s).group())
# aa1239d&&&
print(rep.search(s).group(1))
# &&&

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
浅谈python中的占位符
Nov 09 Python
Python编程之gui程序实现简单文件浏览器代码
Dec 08 Python
python 爬虫 批量获取代理ip的实例代码
May 22 Python
python的concat等多种用法详解
Nov 28 Python
Django REST framework内置路由用法
Jul 26 Python
Python实用库 PrettyTable 学习笔记
Aug 06 Python
用sqlalchemy构建Django连接池的实例
Aug 29 Python
python SocketServer源码深入解读
Sep 17 Python
通过celery异步处理一个查询任务的完整代码
Nov 19 Python
python实点云分割k-means(sklearn)详解
May 28 Python
PyTorch中model.zero_grad()和optimizer.zero_grad()用法
Jun 24 Python
Python快速实现一键抠图功能的全过程
Jun 29 Python
Python企业编码生成系统总体系统设计概述
Jul 26 #Python
详解程序意外中断自动重启shell脚本(以Python为例)
Jul 26 #Python
python的pstuil模块使用方法总结
Jul 26 #Python
python爬虫项目设置一个中断重连的程序的实现
Jul 26 #Python
python通过http下载文件的方法详解
Jul 26 #Python
快速解决vue.js 模板和jinja 模板冲突的问题
Jul 26 #Python
Python调用C语言的实现
Jul 26 #Python
You might like
PHP编码规范的深入探讨
2013/06/06 PHP
使用Appcan客户端自动更新PHP版本号(全)
2015/07/31 PHP
Yii隐藏URL中index.php的方法
2016/07/12 PHP
thinkPHP5.0框架简单配置作用域的方法
2017/03/17 PHP
JavaScript 学习笔记二 字符串拼接
2010/03/28 Javascript
Jquery中显示隐藏的实现代码分析
2011/07/26 Javascript
jQuery Tools Dateinput使用介绍
2012/07/14 Javascript
JS删除字符串中重复字符方法
2014/03/09 Javascript
jQuery中die()方法用法实例
2015/01/19 Javascript
浅谈JSON中stringify 函数、toJosn函数和parse函数
2015/01/26 Javascript
jquery图片倾斜层叠切换特效代码分享
2015/08/27 Javascript
jquery与js实现全选功能的区别
2017/06/11 jQuery
web前端vue之vuex单独一文件使用方式实例详解
2018/01/11 Javascript
vue项目中api接口管理总结
2018/04/20 Javascript
vue中子组件的methods中获取到props中的值方法
2018/08/27 Javascript
解决vue自定义指令导致的内存泄漏问题
2020/08/04 Javascript
Ant-design-vue Table组件customRow属性的使用说明
2020/10/28 Javascript
[02:36]DOTA2混沌骑士 英雄基础教程
2013/11/26 DOTA
讲解Python中for循环下的索引变量的作用域
2015/04/15 Python
python机器人行走步数问题的解决
2018/01/29 Python
python 编码规范整理
2018/05/05 Python
python中scikit-learn机器代码实例
2018/08/05 Python
设置python3为默认python的方法
2018/10/31 Python
使用 Python 处理 JSON 格式的数据
2019/07/22 Python
浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点
2020/06/08 Python
浅谈keras2 predict和fit_generator的坑
2020/06/17 Python
CSS3区域模块region相关编写示例
2015/08/28 HTML / CSS
HTML5 Canvas 起步(1) - 基本概念
2009/05/12 HTML / CSS
如何在Canvas中添加事件的方法示例
2019/05/21 HTML / CSS
校园广播稿精选
2014/10/01 职场文书
加班费申请报告
2015/05/15 职场文书
导游词之秦始皇兵马俑博物馆
2019/09/29 职场文书
导游词之镇江西津古渡
2019/11/06 职场文书
Nginx解决前端访问资源跨域问题的方法详解
2021/03/31 Servers
Nginx Rewrite使用场景及配置方法解析
2021/04/01 Servers
详解SQL报错盲注
2022/07/23 SQL Server