Python中正则表达式详解


Posted in Python onMay 17, 2017

基础篇

正则表达式在python中运用的非常多,因为他可以进行任意的匹配,可以匹配我们想要提取的信息。当我们接触正则的时候你就会知道正则的强大。正则有一个库re 在一些工程中我们会经常调用正则的库来做与匹配相关的问题。

字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取 @ 前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

所以我们判断一个字符串是否是合法的Email的方法是:

1.创建一个匹配Email的正则表达式;

2.用该正则表达式去匹配用户的输入来判断是否合法。

因为正则表达式也是用字符串表示的,所以,我们要首先了解如何用字符来描述字符。

在正则表达式中,如果直接给出字符,就是精确匹配。用 \d 可以匹配一个数字, \w 可以匹配一个字母或数字,所以:

'00\d' 可以匹配 '007' ,但无法匹配 '00A' ;

'\d\d\d' 可以匹配 '010' ;

'\w\w\d' 可以匹配 'py3' ;

. 可以匹配任意字符,所以:
'py.' 可以匹配 'pya' 、 'pyb' 、 'py!' 等等。 

要匹配变长的字符,在正则表达式中,用 * 表示任意个字符(包括0个),用 + 表示至少一个字符,用 ? 表示0个或1个字符,用 {n} 表示n个字符,用 {n,m} 表示n-m个字符:

来看一个复杂的例子: \d{3}\s+\d{3,8} 。

我们来从左到右解读一下:

1. \d{3} 表示匹配3个数字,例如 '010' ;

2. \s 可以匹配一个空格(也包括Tab等空白符),所以 \s+ 表示至少有一个空格,例如匹配 ' ' , ' ' 等;

3. \d{3,8} 表示3-8个数字,例如 '1234567' 。

综合起来,上面的正则表达式可以匹配以任意个空格隔开的带区号的电话号码。

如果要匹配 '010-12345' 这样的号码呢?由于 '-' 是特殊字符,在正则表达式中,要用 '\' 转义,所以,上面的正则是 \d{3}\-\d{3,8} 。

但是,仍然无法匹配 '010 - 12345' ,因为带有空格。所以我们需要更复杂的匹配方式。

强化篇

要做更精确地匹配,可以用 [] 表示范围,比如:

[0-9a-zA-Z\_] 可以匹配一个数字、字母或者下划线;

[0-9a-zA-Z\_]+ 可以匹配至少由一个数字、字母或者下划线组成的字符串,比如 'a100' , '0_Z' , 'Py3000' 等等;

[a-zA-Z\_][0-9a-zA-Z\_]* 可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19} 更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

A|B 可以匹配A或B,所以 (P|p)ython 可以匹配 'Python' 或者 'python' 。

^ 表示行的开头, ^\d 表示必须以数字开头。

$ 表示行的结束, \d$ 表示必须以数字结束。

你可能注意到了, py 也可以匹配 'python' ,但是加上 ^py$ 就变成了整行匹配,就只能匹配 'py' 了。

re模块

有了准备知识,我们就可以在Python中使用正则表达式了。Python提供 re 模块,包含所有正则表达式的功能。由于Python的字符串本身也用 \ 转义,所以要特别注意:

s = 'ABC\\-001' # Python的字符串
# 对应的正则表达式字符串变成:
# 'ABC\-001'

因此我们强烈建议使用Python的 r 前缀,就不用考虑转义的问题了:

s = r'ABC\-001' # Python的字符串
# 对应的正则表达式字符串不变:
# 'ABC\-001'

先看看如何判断正则表达式是否匹配:

>>> import re
>>> re.match(r'^\d{3}\-\d{3,8}$', '010-12345')
<_sre.SRE_Match object at 0x1026e18b8>
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
>>>

match() 方法判断是否匹配,如果匹配成功,返回一个 Match 对象,否则返回 None 。常见的判断方法就是:

test = '用户输入的字符串'
if re.match(r'正则表达式', test):
  print 'ok'
else:
  print 'failed'

切分字符串

用正则表达式切分字符串比用固定的字符更灵活,请看正常的切分代码:

>>> 'a b  c'.split(' ')
['a', 'b', '', '', 'c']

嗯,无法识别连续的空格,用正则表达式试试:

>>> re.split(r'\s+', 'a b  c')
['a', 'b', 'c']

无论多少个空格都可以正常分割。加入,试试:

>>> re.split(r'[\s\,]+', 'a,b, c d')
['a', 'b', 'c', 'd']

再加入;试试:

>>> re.split(r'[\s\,\;]+', 'a,b;; c d')
['a', 'b', 'c', 'd']

如果用户输入了一组标签,下次记得用正则表达式来把不规范的输入转化成正确的数组。

分组

除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。用 () 表示的就是要提取的分组(Group)。比如:

^(\d{3})-(\d{3,8})$ 分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:

>>> m = re.match(r'^(\d{3})-(\d{3,8})$', '010-12345')
>>> m
<_sre.SRE_Match object at 0x1026fb3e8>
>>> m.group(0)
'010-12345'
>>> m.group(1)
'010'
>>> m.group(2)
'12345'

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串来。

注意到 group(0) 永远是原始字符串, group(1) 、 group(2) ……表示第1、2、……个子串。

提取子串非常有用。来看一个更凶残的例子:

>>> t = '19:05:30'
>>> m = re.match(r'^(0[0-9]|1[0-9]|2[0-3]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])\:(0[0-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]|5[0-9]|[0-9])$', t)
>>> m.groups()
('19', '05', '30')

这个正则表达式可以直接识别合法的时间。但是有些时候,用正则表达式也无法做到完全验证,比如识别日期:
'^(0[1-9]|1[0-2]|[0-9])-(0[1-9]|1[0-9]|2[0-9]|3[0-1]|[0-9])$'

对于 '2-30' , '4-31' 这样的非法日期,用正则还是识别不了,或者说写出来非常困难,这时就需要程序配合识别了。

贪婪匹配

最后需要特别指出的是,正则匹配默认是贪婪匹配,也就是匹配尽可能多的字符。举例如下,匹配出数字后面的 0 :

>>> re.match(r'^(\d+)(0*)$', '102300').groups()
('102300', '')

由于\d+采用贪婪匹配,直接把后面的0全部匹配了,结果0*只能匹配空字符串了。

必须让 \d+ 采用非贪婪匹配(也就是尽可能少匹配),才能把后面的 0 匹配出来,加个 ? 就可以让 \d+ 采用非贪婪匹配:

>>> re.match(r'^(\d+?)(0*)$', '102300').groups()
('1023', '00')

编译

当我们在Python中使用正则表达式时,re模块内部会干两件事情:

1.编译正则表达式,如果正则表达式的字符串本身不合法,会报错;

2.用编译后的正则表达式去匹配字符串。

如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配:

>>> import re
# 编译:
>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$')
# 使用:
>>> re_telephone.match('010-12345').groups()
('010', '12345')
>>> re_telephone.match('010-8086').groups()
('010', '8086')

编译后生成Regular Expression对象,由于该对象自己包含了正则表达式,所以调用对应的方法时不用给出正则字符串。

小结

正则表达式非常强大,要在短短的一节里讲完是不可能的。要讲清楚正则的所有内容,可以写一本厚厚的书了。如果你经常遇到正则表达式的问题,你可能需要一本正则表达式的参考书。

请尝试写一个验证Email地址的正则表达式。版本一应该可以验证出类似的Email:
someone@gmail.com
Demonzjs93@gmail.com

总结一下python中常用的匹配符:

\w     可以匹配一个字母或者数字

\d     匹配数字

\d+    可以匹配多个数字

\d+?   可以匹配一部分数字(一组)

^      匹配行首

     匹配行尾

^\d    第一个必须为数字

\d$    最后一个必须为数字

\s     匹配一个空格

\d{3,8}          匹配3-8个数字

[0-9a-zA-Z\_]    可以匹配一个数字、字母或者下划线;

[0-9a-zA-Z\_]+   可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'a100','0_Z','Py3000'等等;

[a-zA-Z\_][0-9a-zA-Z\_]*   可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;

[a-zA-Z\_][0-9a-zA-Z\_]{0, 19}   更精确地限制了变量的长度是1-20个字符(前面1个字符+后面最多19个字符)。

   匹配任意个字符
   匹配任意个字符(包括0个)
   匹配0个或1个字符
+    匹配至少一个字符
{n}      n个字符
{n,m}    n-m个字符

>>>'Demon is a good %s' % ('boy')
'Demon is a good boy'

只要可以熟料运用上面的匹配符,今后运用正则表达式可以做很多功能,当你动手做的时候就知道正则的强大了。

Python 相关文章推荐
python发腾讯微博代码分享
Jan 10 Python
Python编程实现蚁群算法详解
Nov 13 Python
Python实现的多线程同步与互斥锁功能示例
Nov 30 Python
python学生信息管理系统
Mar 13 Python
在pandas中一次性删除dataframe的多个列方法
Apr 10 Python
Django 多语言教程的实现(i18n)
Jul 07 Python
Python将文本去空格并保存到txt文件中的实例
Jul 24 Python
python ftp 按目录结构上传下载的实现代码
Sep 12 Python
python lambda表达式在sort函数中的使用详解
Aug 28 Python
Python Celery多队列配置代码实例
Nov 22 Python
python 读取更新中的log 或其它文本方式
Dec 24 Python
python实现AdaBoost算法的示例
Oct 03 Python
python算法演练_One Rule 算法(详解)
May 17 #Python
浅谈pyhton学习中出现的各种问题(新手必看)
May 17 #Python
Python入门_学会创建并调用函数的方法
May 16 #Python
Python入门_浅谈逻辑判断与运算符
May 16 #Python
Python入门_条件控制(详解)
May 16 #Python
Python入门_浅谈for循环、while循环
May 16 #Python
Python入门_浅谈数据结构的4种基本类型
May 16 #Python
You might like
PHP面向对象分析设计的经验原则
2008/09/20 PHP
php正则匹配html中带class的div并选取其中内容的方法
2015/01/13 PHP
php+mysqli实现批量执行插入、更新及删除数据的方法
2015/01/29 PHP
php 输入输出流详解及示例代码
2016/08/25 PHP
thinkPHP框架可添加js事件的分页类customPage.class.php完整实例
2017/03/16 PHP
关于 Laravel Redis 多个进程同时取队列问题详解
2017/12/25 PHP
window.open以post方式将内容提交到新窗口
2012/12/26 Javascript
JavaScript中几个重要的属性(this、constructor、prototype)介绍
2013/05/19 Javascript
confirm的用法示例用于按钮操作时确定是否执行
2014/06/19 Javascript
node.js操作mongodb学习小结
2015/04/25 Javascript
详解JavaScript中数组的相关知识
2015/07/29 Javascript
浅析JavaScript中浏览器的兼容问题
2016/04/19 Javascript
基于jQuery实现仿QQ空间送礼物功能代码
2016/05/24 Javascript
详解jQuery lazyload 懒加载
2016/12/19 Javascript
Highcharts+NodeJS搭建数据可视化平台示例
2017/01/01 NodeJs
jquery easyui DataGrid简单示例
2017/01/23 Javascript
详解前后端分离之VueJS前端
2017/05/24 Javascript
Nodejs回调加超时限制两种实现方法
2017/06/09 NodeJs
vue.js 上传图片实例代码
2017/06/22 Javascript
jQuery插件artDialog.js使用与关闭方法示例
2017/10/09 jQuery
axios发送post请求,提交图片类型表单数据方法
2018/03/16 Javascript
详解用js代码触发dom事件的实现方案
2020/06/10 Javascript
[01:14:55]EG vs Spirit Supermajor 败者组 BO3 第三场 6.4
2018/06/05 DOTA
Python文件及目录操作实例详解
2015/06/04 Python
Python使用正则表达式过滤或替换HTML标签的方法详解
2017/09/25 Python
python SQLAlchemy 中的Engine详解
2019/07/04 Python
python安装virtualenv虚拟环境步骤图文详解
2019/09/18 Python
python获取array中指定元素的示例
2019/11/26 Python
python实现音乐播放和下载小程序功能
2020/04/26 Python
Python 如何查找特定类型文件
2020/08/17 Python
Keds官方网站:购买帆布运动鞋和经典皮鞋
2016/11/12 全球购物
Microsoft Advertising美国:微软搜索广告
2019/05/01 全球购物
PPP协议组成及简述协议协商的基本过程
2015/05/28 面试题
玲玲的画教学反思
2014/02/04 职场文书
2015年妇幼卫生工作总结
2015/05/23 职场文书
幽默口才训练经典句子(48句)
2019/08/19 职场文书