Python抓取框架 Scrapy的架构


Posted in Python onAugust 12, 2016

最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。

一、概述

下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

Python抓取框架 Scrapy的架构

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的:

1).首先获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求,并执行解析来调用回调函数。
2).在回调函数中,你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调,然后被Scrapy下载,然后有指定的回调处理。
3).在回调函数中,你解析网站的内容,同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序),并生成解析的数据项。
4).最后,从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法,同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有:

1).清洗HTML数据
2).验证解析到的数据(检查项目是否包含必要的字段)
3).检查是否是重复数据(如果重复就删除)
4).将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的,对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件,主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程

Scrapy的整个数据处理流程有Scrapy引擎进行控制,其主要的运行方式为:

引擎打开一个域名,时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。
引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度。
引擎从调度那获取接下来进行爬取的页面。
调度将下一个爬取的URL返回给引擎,引擎将他们通过下载中间件发送到下载器。
当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎。
引擎收到下载器的响应并将它通过蜘蛛中间件发送到蜘蛛进行处理。
蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。
引擎将抓取到的项目项目管道,并向调度发送请求。
系统重复第二部后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。

四、驱动器

Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架,它使用的是非堵塞的异步处理。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 从远程服务器下载日志文件的程序
Feb 10 Python
Python中字典(dict)和列表(list)的排序方法实例
Jun 16 Python
使用Python的web.py框架实现类似Django的ORM查询的教程
May 02 Python
centos6.4下python3.6.1安装教程
Jul 21 Python
selenium python浏览器多窗口处理代码示例
Jan 15 Python
python实现学生信息管理系统
Apr 05 Python
用TensorFlow实现戴明回归算法的示例
May 02 Python
pycharm执行python时,填写参数的方法
Oct 29 Python
pyqt5实现俄罗斯方块游戏
Jan 11 Python
Python实现计算字符串中出现次数最多的字符示例
Jan 21 Python
解析pip安装第三方库但PyCharm中却无法识别的问题及PyCharm安装第三方库的方法教程
Mar 10 Python
Python实现网络聊天室的示例代码(支持多人聊天与私聊)
Jan 27 Python
判断网页编码的方法python版
Aug 12 #Python
Python利用IPython提高开发效率
Aug 10 #Python
详解python如何调用C/C++底层库与互相传值
Aug 10 #Python
浅析python中的分片与截断序列
Aug 09 #Python
总结python爬虫抓站的实用技巧
Aug 09 #Python
教你用Type Hint提高Python程序开发效率
Aug 08 #Python
Python如何实现文本转语音
Aug 08 #Python
You might like
php模拟socket一次连接,多次发送数据的实现代码
2011/07/26 PHP
关于URL最大长度限制的相关资料查证
2014/12/23 PHP
php对文件夹进行相关操作(遍历、计算大小)
2015/11/04 PHP
yii2 resetful 授权验证详解
2017/05/18 PHP
PHP微信模板消息操作示例
2017/06/29 PHP
PHP5中使用mysqli的prepare操作数据库的介绍
2019/03/18 PHP
读jQuery之一(对象的组成)
2011/06/11 Javascript
JS Jquery 遍历,筛选页面元素 自动完成(实现代码)
2013/07/08 Javascript
一个JS的日期格式化算法示例
2013/07/31 Javascript
Json和Jsonp理论实例代码详解
2013/11/15 Javascript
百度移动版的url编码解码示例
2014/04/29 Javascript
JavaScript中的object转换函数toString()与valueOf()介绍
2014/12/31 Javascript
探讨AngularJs中ui.route的简单应用
2016/11/16 Javascript
概述一个页面从输入URL到页面加载完的过程
2016/12/16 Javascript
Jquery与Bootstrap实现后台管理页面增删改查功能示例
2017/01/22 Javascript
Bootstrap 下拉多选框插件Bootstrap Multiselect
2017/01/22 Javascript
浅谈Vue响应式(数组变异方法)
2018/05/07 Javascript
微信小程序的授权实现过程解析
2019/08/02 Javascript
angularjs请求数据的方法示例
2019/08/06 Javascript
vue+ElementUI 关闭对话框清空验证,清除form表单的操作
2020/08/06 Javascript
[04:01]2014DOTA2国际邀请赛 TITAN告别Ohaiyo期望明年再战
2014/07/15 DOTA
详解Python中内置的NotImplemented类型的用法
2015/03/31 Python
给你选择Python语言实现机器学习算法的三大理由
2017/11/15 Python
使用Python自动化破解自定义字体混淆信息的方法实例
2019/02/13 Python
Python绘制股票移动均线的实例
2019/08/24 Python
蒂芙尼澳大利亚官方网站:Tiffany&Co. Australia
2017/08/27 全球购物
FitFlop美国官网:英国符合人体工学的鞋类品牌
2018/10/05 全球购物
法国在线购买汽车轮胎网站:123pneus.fr
2019/02/25 全球购物
迪士尼西班牙官方网上商店:ShopDisney西班牙
2020/02/02 全球购物
中医药大学市场营销专业自荐信
2013/09/29 职场文书
求职信模板怎么做
2014/01/26 职场文书
《乡下孩子》教学反思
2014/04/17 职场文书
尊老爱亲美德少年事迹材料
2014/08/14 职场文书
2015年幼儿园安全工作总结
2015/05/12 职场文书
SONY AN-LP1 短波有源天线放大器
2021/04/22 无线电
一篇文章带你深入了解Mysql触发器
2021/08/02 MySQL