Python爬虫运用正则表达式的方法和优缺点


Posted in Python onAugust 25, 2019

前言

我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。

目标:爬取Top100榜单上电影的封面图

Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤:

(1)查看页面元素,找到包含图片的路径的代码段落

(2)分析图片在web上面的唯一属性,便于之后获取正确图片位置信息

(3)因为需要翻页,观察多个页面的URL变化

(4)综合以上几个点,编写合适的正则表达式

 1、python 标准库中re模块提供了正则表达式的全部功能,直接引入;requests模块是http库,爬虫常用库,而urllib.requests 则是最后用到写入文件的函数

import re
import requests
import urllib.request

2、先接收URL地址的HTML页面,然后转化为str形式(正则表达式是匹配字符串),第一个pattern1缩小范围,抓取目标部分,result1接收匹配的结果,这时候所有封面图地址就在里面了

response = requests.get(url)
response = str(response.content)
patttern1 = '<dl class="board-wrapper">.+?<div class="pager-main">'
result1 = re.compile(pat).findall(response)

3、第二个正则,匹配图片的地址信息

pat2 = '<img data-src="https://(.+?\.jpg)'
photos = re.compile(pat1).findall(re1[0])

这时候爬取到100张图的信息,如下图:

Python爬虫运用正则表达式的方法和优缺点

 4、继续下一步,把每张图片命名好,需要正确的图片地址,避免重复 

x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1

 5、最后一步了,因为需要翻页爬取,所以加了一个循环,10页内容爬取下来

for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4?offset='+str(i)
  get_one_page(url, i)
  #定义函数,多次调用

相对来说,这是一个很简单的应用,也是自己学习之后的实践,在这个例子中,我是用到正则表达式来实现的,还有其他方法,而且可能简单,比如BeautifulSoup,XPath等方法,用在更加复杂的爬虫项目里面,需要的知识更多,方法更严谨,还需学习学习!

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python操作MongoDB详解及实例
May 18 Python
Python编程之序列操作实例详解
Jul 22 Python
pytorch 数据集图片显示方法
Jul 26 Python
flask中过滤器的使用详解
Aug 01 Python
Python3.6使用tesseract-ocr的正确方法
Oct 17 Python
Python中单线程、多线程和多进程的效率对比实验实例
May 14 Python
python实现植物大战僵尸游戏实例代码
Jun 10 Python
Python如何通过Flask-Mail发送电子邮件
Jan 29 Python
pytorch 实现在一个优化器中设置多个网络参数的例子
Feb 20 Python
python 两种方法修改文件的创建时间、修改时间、访问时间
Sep 26 Python
python+opencv实现车道线检测
Feb 19 Python
Python实现我的世界小游戏源代码
Mar 02 Python
numpy求平均值的维度设定的例子
Aug 24 #Python
Python实现滑动平均(Moving Average)的例子
Aug 24 #Python
浅谈Python3 numpy.ptp()最大值与最小值的差
Aug 24 #Python
在Python3 numpy中mean和average的区别详解
Aug 24 #Python
Python绘制股票移动均线的实例
Aug 24 #Python
python+selenium 鼠标事件操作方法
Aug 24 #Python
python+selenium select下拉选择框定位处理方法
Aug 24 #Python
You might like
PHP数据分析引擎计算余弦相似度算法示例
2017/08/08 PHP
PHP常见的序列化与反序列化操作实例分析
2019/10/28 PHP
Javascript 面向对象 命名空间
2010/05/13 Javascript
16个最流行的JavaScript框架[推荐]
2011/05/29 Javascript
简易js代码实现计算器操作
2013/04/15 Javascript
Javascript实现前端简单的路由实例
2016/09/11 Javascript
详解如何使用vue-cli脚手架搭建Vue.js项目
2017/05/19 Javascript
angular中使用Socket.io实例代码
2017/06/03 Javascript
浅析Javascript中双等号(==)隐性转换机制
2017/10/27 Javascript
vue+element-ui动态生成多级表头的方法
2018/08/28 Javascript
webpack+vue-cli项目中引入外部非模块格式js的方法
2018/09/28 Javascript
微信小程序页面调用自定义组件内的事件详解
2019/09/12 Javascript
javascript设计模式 ? 适配器模式原理与应用实例分析
2020/04/13 Javascript
详解Vue串联过滤器的使用场景
2020/04/30 Javascript
vue a标签点击实现赋值方式
2020/09/07 Javascript
用Python编写一个国际象棋AI程序
2014/11/28 Python
利用Fn.py库在Python中进行函数式编程
2015/04/22 Python
Python中获取对象信息的方法
2015/04/27 Python
Python读写unicode文件的方法
2015/07/10 Python
让python在hadoop上跑起来
2016/01/27 Python
浅析Python的web.py框架中url的设定方法
2016/07/11 Python
python实现微信远程控制电脑
2018/02/22 Python
python放大图片和画方格实现算法
2018/03/30 Python
python3获取两个日期之间所有日期,以及比较大小的实例
2018/04/08 Python
python__name__原理及用法详解
2019/11/02 Python
python使用OpenCV模块实现图像的融合示例代码
2020/04/10 Python
Django视图、传参和forms验证操作
2020/07/15 Python
Django静态文件加载失败解决方案
2020/08/26 Python
Python 使用xlwt模块将多行多列数据循环写入excel文档的操作
2020/11/10 Python
材料物理专业大学毕业生求职信
2013/10/15 职场文书
大专生自我评价
2014/01/28 职场文书
暑期社会实践方案
2014/02/05 职场文书
银行主办会计岗位职责
2014/08/13 职场文书
关于倡议书的范文
2015/04/29 职场文书
社区干部培训心得体会
2016/01/06 职场文书
Win11如何查看显卡型号 Win11查看显卡型号的方法
2022/08/14 数码科技