python re模块和正则表达式


Posted in Python onMarch 24, 2021

一、re模块和正则表达式

先来看一个例子:https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/

这是京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示。假如我们随意的在手机号码这一栏输入一个11111111111,它会提示我们格式有误。这个功能是怎么实现的呢?假如现在你用python写一段代码,类似:

phone_number = input('please input your phone number : ')

你怎么判断这个phone_number是合法的呢?

根据手机号码一共11位并且是只以13、14、15、18开头的数字这些特点,我们用python写了如下代码:

# 方式一 判断号码是否合法
# -*- coding:utf-8 -*-
while True:
  phone_number = str(input('please input your phone number : '))
  if len(phone_number) == 11 \
      and phone_number.isdigit() \
      and (phone_number.startswith('13') \
         or phone_number.startswith('14') \
         or phone_number.startswith('15') \
         or phone_number.startswith('18')):
    print('是合法的手机号码')
  else:
    print('不是合法的手机号码')

正则表达式不仅在python领域,在整个编程届都占有举足轻重的地位。

不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。

但是你要知道,re模块本质上和正则表达式没有关系。re模块和正则表达式的关系 类似于time模块和时间的关系。
时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。
正则表达式本身也和python没有什么关系,就是匹配字符串内容的一种规则。
官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

二、正则表达式

在线测试工具 http://tool.chinaz.com/regex/

首先谈到正则,就只和字符串相关了。在我给你提供的工具中,你输入的每一个字都是一个字符串。
其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的。
比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。

2.1 字符组

字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。

正则 待匹配字符 匹配
结果
说明
[0123456789] 8 True 在一个字符组里枚举合法的所有字符,字符组里的任意一个字符
和"待匹配字符"相同都视为可以匹配
[0123456789] a False 由于字符组中没有"a"字符,所以不能匹配
[0-9] 7 True 也可以用-表示范围,[0-9]就和[0123456789]是一个意思
[a-z] s True 同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示
[A-Z] B True [A-Z]就表示所有的大写字母
[0-9a-fA-F] e True 可以匹配数字,大小写形式的a~f,用来验证十六进制字符

2.2 元字符

元字符 匹配内容
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线
\s 匹配任意的空白符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符

2.3 量词

量词 用法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

2.3.1 . ^ $

正则 待匹配字符 匹配
结果
说明
小. 小明小军小兰 小明小军小兰 匹配所有"小."的字符
^小. 小明小军小兰 小明 只从开头匹配"小."
小.$ 小明小军小兰 小兰 只匹配结尾的"小.$"

2.3.2 * + ? { }

正则 待匹配字符 匹配
结果
说明
小.? 小明和小李子和小巧玲珑

小明
小李
小巧

?表示重复零次或一次,即只匹配"小"后面一个任意字符
小.* 小明和小李子和小巧玲珑 小明和小李子和小巧玲珑 *表示重复零次或多次,即匹配"小"后面0个或多个任意字符
小.+ 小明和小李子和小巧玲珑 小明和小李子和小巧玲珑 +表示重复一次或多次,即只匹配"小"后面1个或多个任意字符
小.{1,2} 小明和小李子和小巧玲珑

小明和
小李子
小巧玲

{1,2}匹配1到2次任意字符

注意:前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配

正则 待匹配字符 匹配
结果
说明
小.*? 小明和小李子和小巧玲珑

惰性匹配

2.4 字符集[][^]

正则 待匹配字符 匹配
结果
说明
小[明李子巧玲珑]* 小明和小李子和小巧玲珑

小明
小李子
小巧玲珑

表示匹配"小"字后面[明李子巧玲珑]的字符任意次
小[^和]* 小明和小李子和小巧玲珑

小明
小李子
小巧玲珑

表示匹配一个不是"和"的字符任意次
[\d] 456bdha3

4
5
6
3

表示匹配任意一个数字,匹配到4个结果
[\d]+ 456bdha3

456
3

表示匹配任意个数字,匹配到2个结果

 

2.5 分组 ()与 或 |[^]

身份证号码是一个长度为15或18个字符的字符串,如果是15位则全部由数字组成,首位不能为0;如果是18位,则前17位全部是数字,末位可能是数字或x,下面我们尝试用正则来表示:

正则 待匹配字符 匹配
结果
说明
^[1-9]\d{13,16}[0-9x]$ 110101198001017032

110101198001017032

表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$ 1101011980010170

1101011980010170

表示也可以匹配这串数字,但这并不
是一个正确的身份证号码,它是一个
16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$ 1101011980010170

False

现在不会匹配错误的身份证号了
()表示分组,将\d{2}[0-9x]分成
一组,就可以整体约束他们出现的
次数为0-1次
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$ 110105199812067023

110105199812067023

表示先匹配[1-9]\d{16}[0-9x]
如果没有匹配上就匹配
[1-9]\d{14}

2.6 转义符 \

在正则表达式中,有很多有特殊意义的是元字符,比如\d和\s等,如果要在正则中匹配正常的"\d"而不是"数字"就需要对"\"进行转义,变成'\\'。

在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\d",字符串中要写成'\\d',那么正则里就要写成"\\\\d",这样就太麻烦了。

这个时候我们就用到了r'\d'这个概念,此时的正则是r'\\d'就可以了。

正则 待匹配字符 匹配
结果
说明
\d \d False 因为在正则表达式中\是有特殊意义的字符,所以要匹配\d本身,用表达式\d无法匹配
\\d \d True 转义\之后变成\\,即可匹配
"\\\\d" '\\d' True 如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次
r'\\d' r'\d' True 在字符串之前加r,让整个字符串不转义

2.7 贪婪匹配

贪婪匹配:在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配

正则 待匹配字符 匹配
结果
说明
<.*>

<script>...<script>

<script>...<script> 默认为贪婪匹配模式,会匹配尽量长的字符串
<.*?> r'\d'

<script>
<script>

加上?为将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串

几个常用的非贪婪匹配

*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

.*?的用法

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式,何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x 就是取前面任意长度的字符,直到一个x出现

三、re模块

import re
 
ret = re.findall('a', 'ea eg an') # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']
 
ret = re.search('a', 'va eg an').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。
 
ret = re.match('a', 'abc').group() # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'
 
ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) # ['', '', 'cd']
 
ret = re.sub('\d', 'H', 'va3eg4an4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #vaHeg4an4
 
ret = re.subn('\d', 'H', 'va3eg4an4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)
 
obj = re.compile('\d{3}') #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group()) #结果 : 123
 
import re
ret = re.finditer('\d', 'ds3sy4784a')  #finditer返回一个存放匹配结果的迭代器
print(ret) # <callable_iterator object at 0x10195f940>
print(next(ret).group()) #查看第一个结果
print(next(ret).group()) #查看第二个结果
print([i.group() for i in ret]) #查看剩余的左右结果

注意:

1 findall的优先级查询:

import re
 
ret = re.findall('www.(baidu|xunlei).com', 'www.xunlei.com')
print(ret) # ['xunlei']   这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
 
ret = re.findall('www.(?:baidu|xunlei).com', 'www.xunlei.com')
print(ret) # ['www.xunlei.com']

2 split的优先级查询

ret=re.split("\d+","va3eg4an")
print(ret) #结果 : ['va', 'eg', 'an']
 
ret=re.split("(\d+)","va3eg4an")
print(ret) #结果 : ['va', '3', 'eg', '4', 'an']
 
#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。

3.1 匹配标签

import re
 
ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name')) #结果 :h1
print(ret.group()) #结果 :<h1>hello</h1>
 
ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字,也可以用\序号来找到对应的组,表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group()) #结果 :<h1>hello</h1>

2、匹配整数

import re
 
ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

3、数字匹配

1、 匹配一段文本中的每行的邮箱
http://blog.csdn.net/make164492212/article/details/51656638

2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12';
分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、
一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$

3、 匹配qq号。(QQ号从10000开始) [1,9][0,9]{4,}

4、 匹配一个浮点数。 ^(-?\d+)(\.\d+)?$ 或者 -?\d+\.?\d*

5、 匹配汉字。 ^[\u4e00-\u9fa5]{0,}$

6、 匹配出所有整数

4、爬虫

import requests
 
import re
import json
 
def getPage(url):
 
  response=requests.get(url)
  return response.text
 
def parsePage(s):
   
  com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
          '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)
 
  ret=com.finditer(s)
  for i in ret:
    yield {
      "id":i.group("id"),
      "title":i.group("title"),
      "rating_num":i.group("rating_num"),
      "comment_num":i.group("comment_num"),
    }
 
def main(num):
 
  url='https://movie.douban.com/top250?start=%s&filter='%num
  response_html=getPage(url)
  ret=parsePage(response_html)
  print(ret)
  f=open("move_info7","a",encoding="utf8")
 
  for obj in ret:
    print(obj)
    data=json.dumps(obj,ensure_ascii=False)
    f.write(data+"\n")
 
if __name__ == '__main__':
  count=0
  for i in range(10):
    main(count)
    count+=25

简化版

import re
import json
from urllib.request import urlopen
 
def getPage(url):
  response = urlopen(url)
  return response.read().decode('utf-8')
 
def parsePage(s):
  com = re.compile(
    '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
    '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)
 
  ret = com.finditer(s)
  for i in ret:
    yield {
      "id": i.group("id"),
      "title": i.group("title"),
      "rating_num": i.group("rating_num"),
      "comment_num": i.group("comment_num"),
    }
 
 
def main(num):
  url = 'https://movie.douban.com/top250?start=%s&filter=' % num
  response_html = getPage(url)
  ret = parsePage(response_html)
  print(ret)
  f = open("move_info7", "a", encoding="utf8")
 
  for obj in ret:
    print(obj)
    data = str(obj)
    f.write(data + "\n")
 
count = 0
for i in range(10):
  main(count)
  count += 25

flags有很多可选值:

re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释

实现能计算类似

1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式的计算器程序

Python 相关文章推荐
Python实现提取文章摘要的方法
Apr 21 Python
Python中的pass语句使用方法讲解
May 14 Python
Python操作SQLite数据库的方法详解
Jun 16 Python
python3监控CentOS磁盘空间脚本
Jun 21 Python
Python 移动光标位置的方法
Jan 20 Python
python3在同一行内输入n个数并用列表保存的例子
Jul 20 Python
Python处理session的方法整理
Aug 29 Python
Python上下文管理器类和上下文管理器装饰器contextmanager用法实例分析
Nov 07 Python
wxPython实现文本框基础组件
Nov 18 Python
详解Django3中直接添加Websockets方式
Feb 12 Python
Python装饰器的应用场景代码总结
Apr 10 Python
详解Python内置模块Collections
Mar 22 Python
opencv实现图像几何变换
PyQt QMainWindow的使用示例
Mar 24 #Python
PyQt 如何创建自定义QWidget
Mar 24 #Python
解决python 输出到csv 出现多空行的情况
opencv实现图像平移效果
python+selenium小米商城红米K40手机自动抢购的示例代码
Python使用openpyxl复制整张sheet
Mar 24 #Python
You might like
php下图片文字混合水印与缩略图实现代码
2009/12/11 PHP
PHP面向接口编程 耦合设计模式 简单范例
2011/03/23 PHP
PHP设计模式 注册表模式
2012/02/05 PHP
php实现ip白名单黑名单功能
2015/03/12 PHP
PHP 枚举类型的管理与设计知识点总结
2020/02/13 PHP
phpmyadmin在宝塔面板里进不去的解决方案
2020/07/06 PHP
Window.Open如何在同一个标签页打开
2014/06/20 Javascript
判断数组是否包含某个元素的js函数实现方法
2016/05/19 Javascript
EasyUI的doCellTip实现鼠标放到单元格上提示单元格内容
2016/08/24 Javascript
如何提高javascript加载速度
2016/12/26 Javascript
Vue内容分发slot(全面解析)
2017/08/19 Javascript
react-native-fs实现文件下载、文本存储的示例代码
2017/09/22 Javascript
js 客户端打印html 并且去掉页眉、页脚的实例
2017/11/03 Javascript
vue.js 图片上传并预览及图片更换功能的实现代码
2018/08/27 Javascript
WebGL学习教程之Three.js学习笔记(第一篇)
2019/04/25 Javascript
vue中nextTick用法实例
2019/09/11 Javascript
微信小程序跳转到其他网页(外部链接)的实现方法
2019/09/20 Javascript
[01:12:35]Spirit vs Navi Supermajor小组赛 A组败者组第一轮 BO3 第二场 6.2
2018/06/03 DOTA
Python中字典的基础知识归纳小结
2015/08/19 Python
视觉直观感受若干常用排序算法
2017/04/13 Python
python中in在list和dict中查找效率的对比分析
2018/05/04 Python
深入flask之异步非堵塞实现代码示例
2018/07/31 Python
详解用python生成随机数的几种方法
2019/08/04 Python
Python 切分数组实例解析
2019/11/07 Python
Python 中如何实现参数化测试的方法示例
2019/12/10 Python
kafka监控获取指定topic的消息总量示例
2019/12/23 Python
解决python打开https出现certificate verify failed的问题
2020/09/03 Python
python 爬取小说并下载的示例
2020/12/07 Python
一个不错的HTML5 Canvas多层点击事件监听实例
2014/04/29 HTML / CSS
欧洲最大的球衣网上商店:Kitbag
2017/11/11 全球购物
医学生求职自荐信
2013/10/25 职场文书
大学生求职自我评价
2014/01/16 职场文书
黄继光的英雄事迹材料
2014/02/13 职场文书
临床医学专业求职信
2014/08/08 职场文书
《中国梦我的梦》大学生演讲稿
2014/08/20 职场文书
HTML页面点击按钮关闭页面的多种方式
2022/12/24 HTML / CSS