Python爬虫运用正则表达式的方法和优缺点


Posted in Python onAugust 25, 2019

前言

我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。

目标:爬取Top100榜单上电影的封面图

Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。

下面是我做的步骤:

(1)查看页面元素,找到包含图片的路径的代码段落

(2)分析图片在web上面的唯一属性,便于之后获取正确图片位置信息

(3)因为需要翻页,观察多个页面的URL变化

(4)综合以上几个点,编写合适的正则表达式

 1、python 标准库中re模块提供了正则表达式的全部功能,直接引入;requests模块是http库,爬虫常用库,而urllib.requests 则是最后用到写入文件的函数

import re
import requests
import urllib.request

2、先接收URL地址的HTML页面,然后转化为str形式(正则表达式是匹配字符串),第一个pattern1缩小范围,抓取目标部分,result1接收匹配的结果,这时候所有封面图地址就在里面了

response = requests.get(url)
response = str(response.content)
patttern1 = '<dl class="board-wrapper">.+?<div class="pager-main">'
result1 = re.compile(pat).findall(response)

3、第二个正则,匹配图片的地址信息

pat2 = '<img data-src="https://(.+?\.jpg)'
photos = re.compile(pat1).findall(re1[0])

这时候爬取到100张图的信息,如下图:

Python爬虫运用正则表达式的方法和优缺点

 4、继续下一步,把每张图片命名好,需要正确的图片地址,避免重复 

x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1

 5、最后一步了,因为需要翻页爬取,所以加了一个循环,10页内容爬取下来

for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4?offset='+str(i)
  get_one_page(url, i)
  #定义函数,多次调用

相对来说,这是一个很简单的应用,也是自己学习之后的实践,在这个例子中,我是用到正则表达式来实现的,还有其他方法,而且可能简单,比如BeautifulSoup,XPath等方法,用在更加复杂的爬虫项目里面,需要的知识更多,方法更严谨,还需学习学习!

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python中线程的MQ消息队列实现以及消息队列的优点解析
Jun 29 Python
Python3中简单的文件操作及两个简单小实例分享
Jun 18 Python
Python编程实现控制cmd命令行显示颜色的方法示例
Aug 14 Python
Django视图和URL配置详解
Jan 31 Python
python3+PyQt5实现自定义流体混合窗口部件
Apr 24 Python
python实现画一颗树和一片森林
Jun 25 Python
Python字符串的全排列算法实例详解
Jan 07 Python
pandas ix &amp;iloc &amp;loc的区别
Jan 10 Python
对Python3中列表乘以某一个数的示例详解
Jul 20 Python
Django admin组件的使用
Oct 24 Python
如何基于Python pygame实现动画跑马灯
Nov 18 Python
python 利用matplotlib在3D空间绘制二次抛物面的案例
Feb 06 Python
numpy求平均值的维度设定的例子
Aug 24 #Python
Python实现滑动平均(Moving Average)的例子
Aug 24 #Python
浅谈Python3 numpy.ptp()最大值与最小值的差
Aug 24 #Python
在Python3 numpy中mean和average的区别详解
Aug 24 #Python
Python绘制股票移动均线的实例
Aug 24 #Python
python+selenium 鼠标事件操作方法
Aug 24 #Python
python+selenium select下拉选择框定位处理方法
Aug 24 #Python
You might like
PHP中的串行化变量和序列化对象
2006/09/05 PHP
thinkPHP学习笔记之安装配置篇
2015/03/05 PHP
十大使用PHP框架的理由
2015/09/26 PHP
jQuery+php简单实现全选删除的方法
2016/11/28 PHP
基于jQuery图片平滑连续滚动插件
2009/04/27 Javascript
js事件冒泡实例分享(已测试)
2013/04/23 Javascript
Jquery取得iframe下内容的方法
2013/11/18 Javascript
jquery调取json数据实现省市级联的方法
2015/01/29 Javascript
AngularJS中$interval的用法详解
2016/02/02 Javascript
Google 地图事件实例讲解
2016/08/06 Javascript
jQuery插件实现可输入和自动匹配的下拉框
2016/10/24 Javascript
Javascript highcharts 饼图显示数量和百分比实例代码
2016/12/06 Javascript
JS实现中国公民身份证号码有效性验证
2017/02/20 Javascript
jQuery实现页面倒计时并刷新效果
2017/03/13 Javascript
vue中如何引入jQuery和Bootstrap
2017/04/10 jQuery
如何利用@angular/cli V6.0直接开发PWA应用详解
2018/05/06 Javascript
解决vue请求接口第一次成功,第二次失败问题
2020/09/08 Javascript
为Python的Tornado框架配置使用Jinja2模板引擎的方法
2016/06/30 Python
django模板语法学习之include示例详解
2017/12/17 Python
Django学习笔记之ORM基础教程
2018/03/27 Python
python如何爬取个性签名
2018/06/19 Python
python简易远程控制单线程版
2018/06/20 Python
python pandas获取csv指定行 列的操作方法
2019/07/12 Python
PYTHON EVAL的用法及注意事项解析
2019/09/06 Python
Django静态资源部署404问题解决方案
2020/05/11 Python
Python二元算术运算常用方法解析
2020/09/15 Python
HTML5地理定位实例
2014/10/15 HTML / CSS
Html5定位终极解决方案
2020/02/05 HTML / CSS
澳大利亚波西米亚风情网上商店:Czarina
2019/03/18 全球购物
幼教个人求职信范文
2013/12/02 职场文书
简历的个人自我评价范文
2014/01/03 职场文书
《数星星的孩子》教学反思
2014/04/11 职场文书
小学毕业典礼演讲稿
2014/09/09 职场文书
2014年心理健康教育工作总结
2014/12/06 职场文书
2015年外联部工作总结
2015/04/03 职场文书
六年级语文教学反思
2016/03/03 职场文书