详解Python的爬虫框架 Scrapy


Posted in Python onAugust 03, 2020

网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

一、概述

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程(注:图片来自互联网)。

详解Python的爬虫框架 Scrapy

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的:

首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。

在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。

在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。

最后,从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:

清洗HTML数据
验证解析到的数据(检查项目是否包含必要的字段)
检查是否是重复数据(如果重复就删除)
将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:

1.引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。

2.引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。

3.引擎从调度那获取接下来进行爬取的页面。

4.调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。

5.当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。

6.引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。

7.蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。

8.引擎将抓取到的项目项目管道,并向调度发送请求。

9.系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

四、驱动器

Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。

以上就是详解Python的爬虫框架 Scrapy的详细内容,更多关于Python 爬虫框架 Scrapy的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
TensorFlow搭建神经网络最佳实践
Mar 09 Python
pandas 使用apply同时处理两列数据的方法
Apr 20 Python
python如何实现一个刷网页小程序
Nov 27 Python
Django开发的简易留言板案例详解
Dec 04 Python
浅谈python的深浅拷贝以及fromkeys的用法
Mar 08 Python
python 字典有序并写入json文件过程解析
Sep 30 Python
Python 类,property属性(简化属性的操作),@property,property()用法示例
Oct 12 Python
Python函数的返回值、匿名函数lambda、filter函数、map函数、reduce函数用法实例分析
Dec 26 Python
Pycharm激活码激活两种快速方式(附最新激活码和插件)
Mar 12 Python
详解用Python进行时间序列预测的7种方法
Mar 13 Python
Python 炫技操作之合并字典的七种方法
Apr 10 Python
python中的插入排序的简单用法
Jan 19 Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 #Python
Python pexpect模块及shell脚本except原理解析
Aug 03 #Python
python爬虫使用正则爬取网站的实现
Aug 03 #Python
python获取整个网页源码的方法
Aug 03 #Python
flask开启多线程的具体方法
Aug 02 #Python
基于opencv实现简单画板功能
Aug 02 #Python
django下创建多个app并设置urls方法
Aug 02 #Python
You might like
PHP面向接口编程 耦合设计模式 简单范例
2011/03/23 PHP
深入PHP5中的魔术方法详解
2013/06/17 PHP
php命令行(cli)下执行PHP脚本文件的相对路径的问题解决方法
2015/05/25 PHP
PHP通过API获取手机号码归属地
2015/05/28 PHP
PHP 实现字符串翻转(包含中文汉字)的实现代码
2017/04/01 PHP
PHP与以太坊交互详解
2018/08/24 PHP
Laravel第三方包报class not found的解决方法
2019/10/13 PHP
javascript 用记忆函数快速计算递归函数
2010/03/15 Javascript
客户端js性能优化小技巧整理
2013/11/05 Javascript
Jquery实现仿腾讯微博发表广播
2014/11/17 Javascript
js实现仿百度瀑布流的方法
2015/02/05 Javascript
javascript+ajax实现产品页面加载信息
2015/07/09 Javascript
jQuery+css实现炫目的动态块漂移效果
2016/01/28 Javascript
NodeJS的Promise的用法解析
2016/05/05 NodeJs
详解js中常规日期格式处理、月历渲染和倒计时函数
2016/12/28 Javascript
Vue 表单控件绑定的实现示例
2017/08/11 Javascript
关于预加载InstantClick的问题解决方法
2017/09/12 Javascript
深入浅出理解JavaScript高级定时器原理与用法
2018/08/02 Javascript
VUE实现移动端列表筛选功能
2019/08/23 Javascript
js实现简单的秒表
2020/01/16 Javascript
JavaScript实现商品评价五星好评
2020/11/30 Javascript
小程序角标的添加及绑定购物车数量进行实时更新的实现代码
2020/12/07 Javascript
[01:09]DOTA2次级职业联赛 - ishow.HMM战队宣传片
2014/12/01 DOTA
Python字符遍历的艺术
2008/09/06 Python
Python获取运行目录与当前脚本目录的方法
2015/06/01 Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
2018/02/08 Python
Python配置文件处理的方法教程
2019/08/29 Python
纯CSS和jQuery实现的在页面顶部显示的进度条效果2例(仿手机浏览器进度条效果)
2014/04/16 HTML / CSS
使用css3 属性如何丰富图片样式(圆角 阴影 渐变)
2012/11/22 HTML / CSS
澳大利亚天然护肤品、化妆品和健康产品一站式商店:Nourished Life
2018/12/02 全球购物
英文版区域经理求职信
2013/10/23 职场文书
小学数学课后反思
2014/04/23 职场文书
有关三国演义的读书笔记
2015/06/25 职场文书
解决sql server 数据库,sa用户被锁定的问题
2021/06/11 SQL Server
关于python爬虫应用urllib库作用分析
2021/09/04 Python
GPU服务器的多用户配置方法
2022/07/07 Servers