浅谈Scrapy网络爬虫框架的工作原理和数据采集


Posted in Python onFebruary 07, 2019

今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助。

1、Scrapy爬虫框架

Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。

Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。

浅谈Scrapy网络爬虫框架的工作原理和数据采集

2、由上图可知Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎),Scheduler(调度器),Downloader(下载器),Spiders(蜘蛛),Item Pipeline(项目管道)。爬取过程是Scrapy引擎发送请求,之后调度器把初始URL交给下载器,然后下载器向服务器发送服务请求,得到响应后将下载的网页内容交与蜘蛛来处理,尔后蜘蛛会对网页进行详细的解析。蜘蛛分析的结果有两种:一种是得到新的URL,之后再次请求调度器,开始进行新一轮的爬取,不断的重复上述过程;另一种是得到所需的数据,之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理,最后由Pipeline输出到文件中,或者存入数据库等。

3、这五大组件及其中间件的功能如下:

1) Scrapy引擎:控制整个系统的数据处理流程,触发事务处理流程,负责串联各个模块

2) Scheduler(调度器):维护待爬取的URL队列,当接受引擎发送的请求时,会从待爬取的URL队列中取出下一个URL返回给调度器。

3) Downloader(下载器):向该网络服务器发送下载页面的请求,用于下载网页内容,并将网页内容交与蜘蛛去处理。

4) Spiders(蜘蛛):制定要爬取的网站地址,选择所需数据内容,定义域名过滤规则和网页的解析规则等。

5) Item Pipeline(项目管道):处理由蜘蛛从网页中抽取的数据,主要任务是清洗、验证、过滤、去重和存储数据等。

6) 中间件(Middlewares):中间件是处于Scrapy引擎和Scheduler,Downloader,Spiders之间的构件,主要是处理它们之间的请求及响应。

Scrapy爬虫框架可以很方便的完成网上数据的采集工作,简单轻巧,使用起来非常方便。

4、 基于Scrapy的网络爬虫设计与实现

在了解Scrapy爬虫原理及框架的基础上,本节简要介绍Scrapy爬虫框架的数据采集过程。

4.1 建立爬虫项目文件

基于scrapy爬虫框架,只需在命令行中输入“scrapy startproject article”命令,之后一个名为article的爬虫项目将自动创建。首先进入到article文件夹下,输入命令“cd article”,之后通过“dir”查看目录,也可以通过“tree /f”生成文件目录的树形结构,如下图所示,可以很清晰的看到Scrapy创建命令生成的文件。

浅谈Scrapy网络爬虫框架的工作原理和数据采集

顶层的article文件夹是项目名,第二层中包含的是一个与项目名同名的文件夹article和一个文件scrapy.cfg,这个与项目同名的文件夹article是一个模块,所有的项目代码都在这个模块内添加,而scrapy.cfg文件是整个Scrapy项目的配置文件。第三层中有5个文件和一个文件夹,其中__init__.py是个空文件,作用是将其上级目录变成一个模块;items.py是定义储对象的文件,决定爬取哪些项目;middlewares.py文件是中间件,一般不用进行修改,主要负责相关组件之间的请求与响应;pipelines.py是管道文件,决定爬取后的数据如何进行处理和存储;settings.py是项目的设置文件,设置项目管道数据的处理方法、爬虫频率、表名等;spiders文件夹中放置的是爬虫主体文件(用于实现爬虫逻辑)和一个__init__.py空文件。

4.2 之后开始进行网页结构与数据分析、修改Items.py文件、编写hangyunSpider.py文件、修改pipelines.py文件、修改settings.py文件,这些步骤的具体操作后期会文章专门展开,在此不再赘述。

浅谈Scrapy网络爬虫框架的工作原理和数据采集

4.3 执行爬虫程序

修改上述四个文件之后,在Windows命令符窗口中输入cmd 命令进入到爬虫所在的路径,并执行“scrapy crawl article”命令,这样就可以运行爬虫程序了,最后保存数据到本地磁盘上。

5、 结束语

随着互联网信息的与日俱增,利用网络爬虫工具来获取所需信息必有用武之地。使用开源的Scrapy爬虫框架,不仅可以实现对web上信息的高效、准确、自动的获取,还利于研究人员对采集到的数据进行后续的挖掘分析。

Python 相关文章推荐
在java中如何定义一个抽象属性示例详解
Aug 18 Python
Python中数组,列表:冒号的灵活用法介绍(np数组,列表倒序)
Apr 18 Python
python RabbitMQ 使用详细介绍(小结)
Nov 08 Python
selenium设置proxy、headers的方法(phantomjs、Chrome、Firefox)
Nov 29 Python
元组列表字典(莫烦python基础)
Apr 03 Python
详解pytorch 0.4.0迁移指南
Jun 16 Python
通过cmd进入python的实例操作
Jun 26 Python
妙用itchat! python实现久坐提醒功能
Nov 25 Python
django-crontab实现服务端的定时任务的示例代码
Feb 17 Python
浅谈keras保存模型中的save()和save_weights()区别
May 21 Python
如何在mac下配置python虚拟环境
Jul 06 Python
神经网络训练采用gpu设置的方式
Mar 03 Python
Python实现E-Mail收集插件实例教程
Feb 06 #Python
使用TensorFlow实现二分类的方法示例
Feb 05 #Python
Tensorflow分类器项目自定义数据读入的实现
Feb 05 #Python
在Python 字典中一键对应多个值的实例
Feb 03 #Python
Django csrf 两种方法设置form的实例
Feb 03 #Python
解决django前后端分离csrf验证的问题
Feb 03 #Python
Python利用heapq实现一个优先级队列的方法
Feb 03 #Python
You might like
php checkdate、getdate等日期时间函数操作详解
2010/03/11 PHP
PHP的PSR规范中文版
2013/09/28 PHP
百度工程师讲PHP函数的实现原理及性能分析(三)
2015/05/13 PHP
实现PHP搜索加分页
2016/10/12 PHP
载入进度条 效果
2006/07/08 Javascript
让Firefox支持event对象实现代码
2009/11/07 Javascript
ExtJS Window 最小化的一种方法
2009/11/18 Javascript
判断客户端浏览器是否安装了Flash插件的多种方法
2010/08/11 Javascript
JavaScript实现使用Canvas绘制图形的基本教程
2016/10/27 Javascript
AngularJS实现DOM元素的显示与隐藏功能
2016/11/22 Javascript
jquery插件锦集【推荐】
2016/12/16 Javascript
JavaScript实现256色转灰度图
2017/02/22 Javascript
单行 JS 实现移动端金钱格式的输入规则
2017/05/22 Javascript
Vue2.0设置全局样式(less/sass和css)
2017/11/18 Javascript
详解webpack编译多页面vue项目的配置问题
2017/12/11 Javascript
微信小程序实现topBar底部选择栏效果
2018/07/20 Javascript
javascript实现计算指定范围内的质数示例
2018/12/29 Javascript
js如何获取图片url的Blob值并预览示例代码
2019/03/07 Javascript
Vue对象赋值视图不更新问题及解决方法
2019/06/03 Javascript
小程序中使用css var变量(使js可以动态设置css样式属性)
2020/03/31 Javascript
javascript递归函数定义和用法示例分析
2020/07/22 Javascript
[02:38]2018DOTA2亚洲邀请赛赛前采访-VGJ.T
2018/04/03 DOTA
django中静态文件配置static的方法
2018/05/20 Python
django中模板的html自动转意方法
2018/05/27 Python
python多线程调用exit无法退出的解决方法
2019/02/18 Python
python 使用plt画图,去除图片四周的白边方法
2019/07/09 Python
Python3分析处理声音数据的例子
2019/08/27 Python
Python3和pyqt5实现控件数据动态显示方式
2019/12/13 Python
Python终端输出彩色字符方法详解
2020/02/11 Python
美国高端医师级美容产品电商:BeautifiedYou.com
2017/04/17 全球购物
公司财务总监岗位职责
2013/12/14 职场文书
校园联欢晚会主持词
2014/03/17 职场文书
目标责任书范本
2014/04/16 职场文书
大学生社会实践评语
2014/04/25 职场文书
学校交通安全责任书
2014/08/25 职场文书
人身损害赔偿协议书
2016/03/22 职场文书