编程 Python

Python爬虫教程之利用正则表达式匹配网页内容

Posted in Python onDecember 08, 2020

前言

Python爬虫，除了使用大家广为使用的scrapy架构外，还有很多包能够实现一些简单的爬虫，如BeautifulSoup、Urllib、requests，在使用这些包时，有的网络因为比较复杂，比较难以找到自己想要的代码，在这个时候，如果能够使用正则表达式，将能很方便地爬取到自己想要的数据。

何为正则表达式

正则表达式是一种描述字符串排列的一种语法规则，通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说，就是给定了一个字符串，在字符串中找到想要的字符串，如一个电话号码，一个IP地址，一个字段，在爬虫过程中，如果灵活使用正则表达式，将极大地提升爬虫效率。

正则表达式	描述
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…]	用来表示一组字符,单独列出：[amk] 匹配 ‘a'，‘m'或'k'
[^…]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	匹配0个或多个的表达式。
re+	匹配1个或多个的表达式。
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
re{ n}
re{ n,}	精确匹配n个前面表达式。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a	b
(re)	G匹配括号内的表达式，也表示一个组
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (…), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#…)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 … 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字
\W	匹配非字母数字
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， ‘er\b' 可以匹配"never" 中的 ‘er'，但不能匹配 “verb” 中的 ‘er'。
\B	匹配非单词边界。‘er\B' 能匹配 “verb” 中的 ‘er'，但不能匹配 “never” 中的 ‘er'。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1…\9	匹配第n个分组的子表达式。
\10	匹配第n个分组的子表达式，如果它经匹配。否则指的是八进制字符码的表达式。

Python使用正则表达式

re.match

import re
str1='123asdfa'
mathch1 = re.match("^[0-9]",str1)
print(mathch1.group())

结果

1

如果要匹配12，则

import re
str1='12s3asdfa'
mathch1 = re.findall("1[0-9]",str1)
print(mathch1)

结果

['12']

修改[0-9]为[10-19]是无法匹配到的。

因此，该语句将从头到尾匹配字符，匹配到则结束，需要.group才能获取到匹配到的值。

re.search

import re
str1='1a2s3asdfa'
mathch1 = re.search("^[0-9]",str1)
print(mathch1.group())

结果

1

从头到尾匹配字符，直到找到一个匹配，需要.group才能获取到匹配到的值。re.serach()和re.match()的区别，re.search()将匹配所有的字符，re.match只匹配字符串的开头，如果开头不符合规则，则返回None。

re.split()

import re
str1='1a2s3asdfa'
mathch1 = re.split("[0-9]",str1)
print(mathch1)

结果

['', 'a', 's', 'asdfa']

将匹配到的字符作为分隔符分隔字符串。

re.findall()

import re
str1='12s3asdfa'
mathch1 = re.findall("[0-9]",str1)
print(mathch1)

运行结果

['1', '2', '3']

匹配所有符合规则的字符。

re.sub(pattern, repl, string, count,flag)

import re
str1='12s3asdfa'
mathch1 = re.sub("[0-9]",'|',str1)
print(mathch1)

结果

||s|asdfa

用后面的字符替换前面的符合规则的字符。

爬虫实例

如需要爬取豆瓣热门电影2019，网址为：https://movie.douban.com/chart

Python爬虫教程之利用正则表达式匹配网页内容

首先鼠标右键查看网页源代码

Python爬虫教程之利用正则表达式匹配网页内容

如我们需要爬取电影的名称，我们搜索‘

82年生的金智英'

Python爬虫教程之利用正则表达式匹配网页内容

正则表达式的思路是通过需要爬去的字段旁边的字符去夹住想要的字符串，如我们需要‘82年生金智英'这穿字符，我们可以用“13px;">”和“<”去夹住它。

Python爬虫教程之利用正则表达式匹配网页内容

搜索该结构可以发现，只有标题会用到该结构，不会误爬到其他无关字符串。下面上爬虫代码

import re
import requests
url='https://movie.douban.com/chart'
header={
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
result= requests.get(url,headers=header)
data=re.findall(r'13px\;\"\>([^\<]+)',result.text)
print(data)

结果是一个长度为9的数组。

['82年生金智英 / Kim Ji-young,Born 1982', '爱尔兰杀手(港) / 听说你刷房子了', '小丑起源电影：罗密欧 / Romeo', '情迷纽约下雨天(港) / 纽约有雨', '从前，有个荷里活(港) / 从前，有个好莱坞...(台)', '长安盗', '地下6号 / 六尺之下', '丧尸乐园：连环尸杀(港) / 尸乐园：脏比双拼(台)', '浴火的少女画像(港) / 燃烧女子的画像(台)']

该爬虫需要用到headers，不然会拒绝连接。

data=re.findall(r'13px\;\"\>([^\<]+)',result.text)

表示在result.text这个长字符串中查找，获取“13px;">”和“<”之间的字符串，" \ "代表转移字符，否则无法识别这些符号。

这个案例可能不是最好的使用正则表达式的例子，但是想要给大家分享的是，以后如果遇到很复杂的网络结构，与其一层一层解析，不妨换一种思路，使用正则表达式说不定能够“柳暗花明又一村”。

总结

到此这篇关于Python爬虫教程之利用正则表达式匹配网页内容的文章就介绍到这了,更多相关Python爬虫用正则表达式匹配网页内容内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫教程之利用正则表达式匹配网页内容

- Author -

鹿鸣Llane

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python切片用法实例教程

Sep 08 Python

Python中列表、字典、元组、集合数据结构整理

Nov 20 Python

尝试使用Python多线程抓取代理服务器IP地址的示例

Nov 09 Python

图文详解WinPE下安装Python

May 17 Python

Python实现随机选择元素功能

Sep 14 Python

python中实现将多个print输出合成一个数组

Apr 19 Python

python读取文本绘制动态速度曲线

Jun 21 Python

Django数据库类库MySQLdb使用详解

Apr 28 Python

Python 一键制作微信好友图片墙的方法

May 16 Python

django-filter和普通查询的例子

Aug 12 Python

python实现将视频按帧读取到自定义目录

Dec 10 Python

Python 批量读取文件中指定字符的实现

Mar 06 Python

Python创建文件夹与文件的快捷方法

Dec 08 #Python

Python之字符串的遍历的4种方式

Dec 08 #Python

利用python爬取有道词典的方法

Dec 08 #Python

Python控制鼠标键盘代码实例

Dec 08 #Python

Pycharm-community-2020.2.3 社区版安装教程图文详解

Dec 08 #Python

解决pycharm导入numpy包的和使用时报错：RuntimeError: The current Numpy installation (‘D:\\python3.6\\lib\\site-packa的问题

Dec 08 #Python

Python爬虫之App爬虫视频下载的实现

Dec 08 #Python

You might like

php数组中包含中文的排序方法

2014/06/03 PHP

PHP使用Pthread实现的多线程操作实例

2015/11/14 PHP

PHP 序列化和反序列化函数实例详解

2020/07/18 PHP

laravel框架关于搜索功能的实现

2018/03/15 PHP

laravel实现图片上传预览,及编辑时可更换图片,并实时变化的例子

2019/11/14 PHP

XML+XSL 与 HTML 两种方案的结合

2007/04/22 Javascript

JS中三目运算符和if else的区别分析与示例

2014/11/21 Javascript

javascript中的try catch异常捕获机制用法分析

2016/12/14 Javascript

JavaScript判断浏览器及其版本信息

2017/01/20 Javascript

Vue.js实现价格计算器功能

2020/03/30 Javascript

浅谈Webpack自动化构建实践指南

2017/12/18 Javascript

微信小程序页面生命周期详解

2018/01/31 Javascript

快速解决angularJS中用post方法时后台拿不到值的问题

2018/08/14 Javascript

Vue动态路由缓存不相互影响的解决办法

2019/02/19 Javascript

Android 自定义view仿微信相机单击拍照长按录视频按钮

2019/07/19 Javascript

[01:16:50]DOTA2-DPC中国联赛正赛 Phoenix vs CDEC BO3 第一场 3月7日

2021/03/11 DOTA

Python urllib模块urlopen()与urlretrieve()详解

2013/11/01 Python

Python中线程编程之threading模块的使用详解

2015/06/23 Python

深入理解python多进程编程

2016/06/12 Python

Flask框架web开发之零基础入门

2018/12/10 Python

利用python实现对web服务器的目录探测的方法

2019/02/26 Python

CSS3解析抖音LOGO制作的方法步骤

2019/04/11 HTML / CSS

html5移动端自适应布局的实现

2020/04/15 HTML / CSS

出门问问全球官方商城：Tichome音箱和TicWatch智能手表

2017/12/02 全球购物

LN-CC日本：高端男装和女装的奢侈时尚目的地

2019/09/01 全球购物

node中使用shell脚本的方法步骤

2021/03/23 Javascript

小学教师师德感言

2014/02/10 职场文书

外国人聘用意向书

2014/04/01 职场文书

教师产假请假条

2014/04/10 职场文书

党的群众路线教育实践活动对照检查材料（个人）

2014/09/24 职场文书

党员作风建设整改方案

2014/10/27 职场文书

教师工作表现评语

2014/12/31 职场文书

2016年过年放假安排通知

2015/08/18 职场文书

2016教师廉洁从教心得体会

2016/01/13 职场文书

六五普法学习心得体会

2016/01/21 职场文书

Python使用mitmproxy工具监控手机下载手机小视频

2022/04/18 Python