编程 Python

Python爬虫之正则表达式基本用法实例分析

Posted in Python onAugust 08, 2018

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：

一、简介

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

二、使用方法

1、简单看一下写法

函数语法：

re.match(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re
p = re.compile('abcd')
print(type(p))
#<class '_sre.SRE_Pattern'>
print(dir(p))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'findall', 'finditer', 'flags', 'fullmatch', 'groupindex', 'groups', 'match', 'pattern', 'scanner', 'search', 'split', 'sub', 'subn']
m = p.match('abcdef')
print(type(m))
#<class '_sre.SRE_Match'>
print(dir(m))
#['__class__', '__copy__', '__deepcopy__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'end', 'endpos', 'expand', 'group', 'groupdict', 'groups', 'lastgroup', 'lastindex', 'pos', 're', 'regs', 'span', 'start', 'string']
print(m.group())
#abcd
print(m.group(0))
#abcd

re.match()方法值匹配字符串的开头如果不满足，就返回一个None

import re
p = re.compile('abcd')
m = p.match('abdcef')
print(m.group())
#AttributeError: 'NoneType' object has no attribute 'group'

神奇的.

import re
p = re.compile('.')
m = p.match('abdcef')
print(m.group())
#a

特殊字符（元字符）

注意：\在里面是转义词的意思，例如，你想匹配一个re.compile('.'),这个.是匹配任意字符。但是我就想让它匹配一个.怎么办，re.compile('\.'),这样的话它就真的只匹配一个点。

Python爬虫之正则表达式基本用法实例分析

re.findall()

import re
p = re.compile('\.')
#匹配符号点（注意这里可前面加上了转义符\，就不是匹配任意字符了）
m = p.findall('abc.def.')
print(type(m))
#<class 'list'>
print(m)
#['.', '.']
#可以得出，返回的是一个list，全局查找，不想match方法只匹配字符串开头

数量词：

Python爬虫之正则表达式基本用法实例分析

贪婪模式和非贪婪模式

1、一个小例子

我们知道*表示匹配一个字符串0次或者多次，而+是匹配字符串1次或多次，所以*的时候匹配了0次也打印出来了，而+只找匹配1次的字符。

import re
p = re.compile('[abc]+')
m = p.findall('abcdef')
print(m)
#*
 #['abc', '', '', '', '']
#+
 #['abc']

贪婪与非贪婪模式影响的是被量词修饰的子表达式的匹配行为，贪婪模式在整个表达式匹配成功的前提下，尽可能多的匹配.

而非贪婪模式在整个表达式匹配成功的前提下，尽可能少的匹配。

2、{}

根据下面的例子不难看出，数量词{m}表示的是匹配前面字符串的几个字符串

import re
p = re.compile('[abc]{3}')
m = p.findall('abcdabcd')
print(m)
#{1}
 #['a', 'b', 'c', 'a', 'b', 'c']
#{2}
 #['ab', 'ab']
#{3}
 #['abc', 'abc']

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配,否则返回的是None（注意findall返回的是list，而search返回的直接就是字符串）

import re
p = re.compile('abcd')
m = p.search('abcdabcd')
print(m.group())

检索和替换

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

re.sub(pattern, repl, string, count=0, flags=0)

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

示例一：

替换一#开头的所有字符（匹配任意字符0次或者多次），替换成无。

import re
phone = "2004-959-559 # 这是一个国外电话号码"
num = re.sub('#.*','',phone)
print(num)

示例一：扩展

找到所有非数字的字符，‘'代表着删除。

import re
phone = "2004-959-559 # 这是一个国外电话号码"
num = re.sub('\D','',phone)
print(num)

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

Python爬虫之正则表达式基本用法实例分析

- Author -

Charles.L

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python从零实现贝叶斯分类器的机器学习的教程

Mar 31 Python

Python中你应该知道的一些内置函数

Mar 31 Python

python 读取excel文件生成sql文件实例详解

May 12 Python

python中将函数赋值给变量时需要注意的一些问题

Aug 18 Python

Python 3.3实现计算两个日期间隔秒数/天数的方法示例

Jan 07 Python

对Python3中dict.keys()转换成list类型的方法详解

Feb 03 Python

python中正则表达式与模式匹配

May 07 Python

python flask框架实现重定向功能示例

Jul 02 Python

python的几种矩阵相乘的公式详解

Jul 10 Python

Python安装selenium包详细过程

Jul 23 Python

详解Python中字符串前“b”,“r”,“u”,“f”的作用

Dec 18 Python

Python OpenCV形态学运算示例详解

Apr 07 Python

Python爬虫之pandas基本安装与使用方法示例

Aug 08 #Python

python MNIST手写识别数据调用API的方法

Aug 08 #Python

python实现屏保计时器的示例代码

Aug 08 #Python

详解Python 装饰器执行顺序迷思

Aug 08 #Python

python Flask 装饰器顺序问题解决

Aug 08 #Python

Python BS4库的安装与使用详解

Aug 08 #Python

python特性语法之遍历、公共方法、引用

Aug 08 #Python

You might like

详解PHP显示MySQL数据的三种方法

2008/06/05 PHP

PHP5 操作MySQL数据库基础代码

2009/09/29 PHP

PHP实现的连贯操作、链式操作实例

2014/07/08 PHP

php通过隐藏表单控件获取到前两个页面的url

2014/09/09 PHP

Opcache导致php-fpm崩溃nginx返回502

2015/03/02 PHP

strpos() 函数判断字符串中是否包含某字符串的方法

2019/01/16 PHP

Laravel框架自定义公共函数的引入操作示例

2019/04/16 PHP

[原创]后缀就扩展名为js的文件是什么文件

2007/12/06 Javascript

javascript document.compatMode兼容性

2010/02/23 Javascript

JQuery里选择超链接的实现代码

2011/05/22 Javascript

Jquery中val()表单取值赋值的实例代码

2013/08/15 Javascript

基于zepto.js实现仿手机QQ空间的大图查看组件ImageView.js详解

2015/03/05 Javascript

jQuery实现鼠标划过修改样式的方法

2015/04/14 Javascript

JavaScript控制网页平滑滚动到指定元素位置的方法

2015/04/17 Javascript

js实现input框文字动态变换显示效果

2015/08/19 Javascript

快速学习jQuery插件 jquery.validate.js表单验证插件使用方法

2015/12/01 Javascript

Nodejs Stream 数据流使用手册

2016/04/17 NodeJs

jQuery 判断是否包含在数组中Array[]的方法

2016/08/03 Javascript

微信小程序实现带刻度尺滑块功能

2017/03/29 Javascript

webpack优化的深入理解

2018/12/10 Javascript

解决vue axios跨域 Request Method: OPTIONS问题(预检请求)

2020/08/14 Javascript

Python FTP操作类代码分享

2014/05/13 Python

在Python中使用NLTK库实现对词干的提取的教程

2015/04/08 Python

Python3访问并下载网页内容的方法

2015/07/28 Python

python代码实现ID3决策树算法

2017/12/20 Python

python字符串循环左移

2019/03/08 Python

Django使用Jinja2模板引擎的示例代码

2019/08/09 Python

Python 从subprocess运行的子进程中实时获取输出的例子

2019/08/14 Python

利用django创建一个简易的博客网站的示例

2020/09/29 Python

详解快速开发基于 HTML5 网络拓扑图应用

2018/01/08 HTML / CSS

美国领先的精品家居照明和装饰产品在线零售商：LightsOnline.com

2018/01/23 全球购物

Nordgreen美国官网：在线购买极简主义斯堪的纳维亚手表

2019/07/24 全球购物

学校教师读书活动总结

2014/07/08 职场文书

学习型家庭事迹材料

2014/12/20 职场文书

民事申诉状范本

2015/05/20 职场文书

python生成可执行exe控制Microsip自动填写号码并拨打功能

2021/06/21 Python