python re.match()用法相关示例


Posted in Python onJanuary 27, 2021

学习python爬虫时遇到了一个问题,书上有示例如下:

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?).*',line)

if matchObj:
 print('matchObj.group():',matchObj.group())
 print('matchObj.group(1):', matchObj.group(1))
 print('matchObj.group(2):', matchObj.group(2))
else:
 print('No match!\n')

书上的期望输出是:

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2):smarter

但是我在电脑上跑了一遍得到的输出却是:

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2):

于是开始想办法彻底搞清楚这个差别的原因所在。

首先要读懂这几行代码,而这一行代码的关键在于这一句:

matchObj=re.match(r'(.*)are(.*?).*',line)

匹配的正则表达式是

(.*)are(.*?).*
前面的r表示的是匹配的字符不进行转义,而要匹配的字符串是line,也就是
Cats are smarter than dogs
后面使用group(num),个人理解是,按照正则表达式中的括号数可以捕获得到对应数量的捕获组,而调用group(num)就可以得到对应捕获组的内容,
其中group(0)表示的是匹配的整个表达式的字符串,在本例中就是‘Cats are smarter than dogs'。
参照网上可以搜到的符号的作用:
.匹配除换行符以外的任意字符
*重复之前的字符零次或更多次
?重复之前的字符零次或一次
那么第一个括号的内容,应当就是匹配要匹配的字符串中are之前的所有字符(除换行符),
而第二个括号的内容应当是匹配are之后的内容,但具体想指代什么却显得有些不明确。
不明确的点就在于*和?这两个符号的连用,根据优先级这两个符号是同一优先级的,那么应当按照顺序生效,那么如此翻译的话,这一语句匹配的就是长度为0到无限大的任意字符串,为了探清此时
程序判断的具体内容,我们给匹配字符串末尾的.*也加上括号以提取其内容,而后在输出部分加上对应语句:

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*)are(.*?)(.*)',line)

if matchObj:
 print("matchObj.group():",matchObj.group())
 print("matchObj.group(1):", matchObj.group(1))
 print("matchObj.group(2):", matchObj.group(2))
 print("matchObj.group(3):", matchObj.group(3))
else:
 print('No match!\n')

得到的结果是:

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2):
matchObj.group(3):  smarter than dogs

可见第二个括号里的内容被默认为空了,然后删去那个?,可以看到结果变成:

matchObj.group(): Cats are smarter than dogs
matchObj.group(1): Cats
matchObj.group(2):  smarter than dogs
matchObj.group(3):

那么这是否就意味着?的默认值很可能是0次,那?这个符号到底有什么用呢

仔细想来这个说法并不是很严谨。尝试使用单独的.?组合可以看到这个组合可以用于提取

单个不知道是否存在的字符,而如下代码

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are(.*)?',line)

if matchObj:
 print("matchObj.group():",matchObj.group())
 print("matchObj.group(1):", matchObj.group(1))
 print("matchObj.group(2):", matchObj.group(2))

也能在组别2中正常提取到are之后的字符内容,但稍微改动一下将?放到第二个括号内,

就什么也提取不到,同时导致group(0)中匹配的字符到Cats are就截止了(也就是第二个括号匹配失败)。

令人感到奇怪的是,如果将上面的代码改成

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are (.*)+',line)

if matchObj:
 print("matchObj.group():",matchObj.group())
 print("matchObj.group(1):", matchObj.group(1))
 print("matchObj.group(2):", matchObj.group(2))

也就是仅仅将?改为+,虽然能成功匹配整个line但group(2)中没有内容,

如果把+放到第二个括号中就会产生报错,匹配失败。

那么是否可以认为.*?这三个符号连用只是一个不规范的操作,但由于?的特殊性所以没有报错反而匹配成功了呢?

具体的可能要研究代码本身的机理了,暂且搁置。还有一个问题就是如何达到样例本身想要的,用第二个括号提取单个单词的目的。

如果单单考虑这个例子的话,把原本第二个括号中的?换成r就可以了,也就是如下代码:

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are (.*r).*',line)

if matchObj:
 print("matchObj.group():",matchObj.group())
 print("matchObj.group(1):", matchObj.group(1))
 print("matchObj.group(2):", matchObj.group(2))
 #print("matchObj.group(3):", matchObj.group(3))
else:
 print('No match!\n')

为了泛用性尝试了一下把r改成‘ '但是得到的结果是‘smarter than '。于是尝试把.换成表示任意字母的

[a-zA-Z],成功提取出了单个smarter,代码如下:

import re

line='Cats are smarter than dogs'
matchObj=re.match(r'(.*) are ([a-zA-Z]* ).*',line)

if matchObj:
 print("matchObj.group():",matchObj.group())
 print("matchObj.group(1):", matchObj.group(1))
 print("matchObj.group(2):", matchObj.group(2))
 #print("matchObj.group(3):", matchObj.group(3))
else:
 print('No match!\n')

到此这篇关于python re.match()用法相关示例的文章就介绍到这了,更多相关python re.match()内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用asyncio 封装文件读写
Sep 11 Python
python虚拟环境迁移方法
Jan 03 Python
使用python写的opencv实时监测和解析二维码和条形码
Aug 14 Python
Python3简单爬虫抓取网页图片代码实例
Aug 26 Python
Python实现多线程/多进程的TCP服务器
Sep 03 Python
python使用pip安装模块出现ReadTimeoutError: HTTPSConnectionPool的解决方法
Oct 04 Python
python opencv实现信用卡的数字识别
Jan 12 Python
python开发实例之Python的Twisted框架中Deferred对象的详细用法与实例
Mar 19 Python
浅谈Keras中shuffle和validation_split的顺序
Jun 19 Python
python3.4中清屏的处理方法
Jul 06 Python
Python3安装模块报错Microsoft Visual C++ 14.0 is required的解决方法
Jul 28 Python
anaconda升级sklearn版本的实现方法
Feb 22 Python
selenium+python实现基本自动化测试的示例代码
Jan 27 #Python
Python开发.exe小工具的详细步骤
Jan 27 #Python
Python中正则表达式对单个字符,多个字符和匹配边界等使用
Jan 27 #Python
python正则表达式re.match()匹配多个字符方法的实现
Jan 27 #Python
python工具快速为音视频自动生成字幕(使用说明)
Jan 27 #Python
详解appium自动化测试工具(monitor、uiautomatorviewer)
Jan 27 #Python
Python利用socket模块开发简单的端口扫描工具的实现
Jan 27 #Python
You might like
php返回json数据函数实例
2014/10/09 PHP
php中time()与$_SERVER[REQUEST_TIME]用法区别
2014/11/19 PHP
php简单实现发送带附件的邮件
2015/06/10 PHP
php生成毫秒时间戳的实例讲解
2017/09/22 PHP
javascript 延迟加载技术(lazyload)简单实现
2011/01/17 Javascript
增强用户体验友好性之jquery easyui window 窗口关闭时的提示
2012/06/22 Javascript
js弹出框轻量级插件jquery.boxy使用介绍
2013/01/15 Javascript
用js实现小球的自由移动代码
2013/04/22 Javascript
jQuery控制TR显示隐藏的几种方法
2014/06/18 Javascript
JavaScript中判断原生函数检查function是否是原生代码
2014/09/09 Javascript
javascript实现复制与粘贴操作实例
2014/10/16 Javascript
最精简的JavaScript实现鼠标拖动效果的方法
2015/05/11 Javascript
javascript瀑布流式图片懒加载实例
2020/06/28 Javascript
ng2学习笔记之bootstrap中的component使用教程
2017/03/09 Javascript
nodejs入门教程四:URL相关模块用法分析
2017/04/24 NodeJs
浅谈js中的attributes和Attribute的用法与区别
2020/07/16 Javascript
[02:38]DOTA2亚洲邀请赛小组赛精彩集锦:Wings完美团击溃对手
2017/03/29 DOTA
[49:31]TFT vs Mski Supermajor小组赛C组 BO3 第一场 6.3
2018/06/04 DOTA
python 快速排序代码
2009/11/23 Python
python如何实现excel数据添加到mongodb
2015/07/30 Python
举例讲解Python设计模式编程的代理模式与抽象工厂模式
2016/01/16 Python
TensorFlow中权重的随机初始化的方法
2018/02/11 Python
python opencv检测目标颜色的实例讲解
2018/04/02 Python
对Python3 goto 语句的使用方法详解
2019/02/16 Python
初探利用Python进行图文识别(OCR)
2019/02/26 Python
Python GUI库Tkiner使用方法代码示例
2020/11/27 Python
CSS3 实现发光边框特效
2020/11/11 HTML / CSS
前端canvas水印快速制作(附完整代码)
2019/09/19 HTML / CSS
德国亚洲食品网上商店:asiafoodland.de
2019/12/28 全球购物
《可爱的动物》教学反思
2014/02/22 职场文书
个人合作协议书范本
2014/04/18 职场文书
2014年城管工作总结
2014/11/20 职场文书
民间借贷纠纷答辩状
2015/08/03 职场文书
导游词之阳朔遇龙河
2019/12/16 职场文书
CSS font-variation 可变字体的魅力(实例详解)
2022/03/03 HTML / CSS
pycharm无法安装cv2模块问题
2022/05/20 Python