编程 Python

一文读懂python Scrapy爬虫框架

Posted in Python onFebruary 24, 2021

Scrapy是什么？

先看官网上的说明，http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy是一个非常好用的爬虫框架，它不仅提供了一些开箱即用的基础组件，还提供了强大的自定义功能。

# Scrapy 安装

Scrapy 官网：https://scrapy.org/

各位同学的电脑环境应该和小编的相差不远（如果是使用 win10 的话）安装过程需要10分钟左右

安装命令：

pip install scrapy

由于 Scrapy 依赖了大量的第三方的包，所以在执行上面的命令后并不会马上就下载 Scrapy ，而是会先不断的下载第三方包，包括并不限于以下几种：

pyOpenSSL：Python 用于支持 SSL（Security Socket Layer）的包。
cryptography：Python 用于加密的库。
CFFI：Python 用于调用 C 的接口库。
zope.interface：为 Python 缺少接口而提供扩展的库。
lxml：一个处理 XML、HTML 文档的库，比 Python 内置的 xml 模块更好用。
cssselect：Python 用于处理 CSS 选择器的扩展包。
Twisted：为 Python 提供的基于事件驱动的网络引擎包。
……

如果安装不成功多试两次或者执行pip install --upgrade pip 后再执行 pip install scrapy

等待命令执行完成后，直接输入 scrapy 进行验证。

C:\Users\Administrator>scrapy
Scrapy 2.4.0 - no active project
Available commands:
bench   Run quick benchmark test
...

版本号可能会有差别，不用太在意

如果能正常出现以上内容，说明我们已经安装成功了。

理论上 Scrapy 安装出现各种问题才算正常情况

三、Scrapy创建项目

Scrapy 提供了一个命令来创建项目 scrapy 命令，在命令行上运行：

scrapy startproject jianshu

我们创建一个项目jianshu用来爬取简书首页热门文章的所有信息。

jianshu/
 scrapy.cfg
 jianshu/
  __init__.py
  items.py
  pipelines.py
  settings.py
  spiders/
   __init__.py
   ...

spiders文件夹下就是你要实现爬虫功能（具体如何爬取数据的代码），爬虫的核心。在spiders文件夹下自己创建一个spider，用于爬取简书首页热门文章。

scrapy.cfg是项目的配置文件。

settings.py用于设置请求的参数，使用代理，爬取数据后文件保存等。

items.py 自己预计需要爬取的内容

middlewares.py自定义中间件的文件

pipelines.py 管道，保持数据

项目的目录就用网图来展示一下吧

一文读懂python Scrapy爬虫框架

image Scrapy爬取简书首页热门文章

cd到Jianshu项目中，生成一个爬虫：

scrapy genspider jianshublog www.jianshu.com

这种方式生成的是常规爬虫

1）新建jianshuSpider

import scrapy
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  pass

可以看到，这个类里面有三个属性 name 、 allowed_domains 、 start_urls 和一个parse()方法。

name，它是每个项目唯一的名字，用来区分不同的 Spider。

allowed_domains，它是允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉。
start_urls，它包含了 Spider 在启动时爬取的 url 列表，初始请求是由它来定义的。

parse，它是 Spider 的一个方法。默认情况下，被调用时 start_urls 里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。

到这里我们就清楚了，parse() 方法中的 response 是前面的 start_urls中链接的爬取结果，所以在 parse() 方法中，我们可以直接对爬取的结果进行解析。

修改USER_AGENT

打开settings.py 添加 UA 头信息

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36'

修改`parse`方法解析网页

我们打开简书首页右键检查（ctrl+shift+I）发现所有的博客头条都放在类名.note-list .content 的div 节点里面

一文读懂python Scrapy爬虫框架

修改jianshublog.py代码如下

一文读懂python Scrapy爬虫框架

jianshublog.py

import scrapy
 
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  blogs = response.css('.note-list .content')
  # 获取博客列表
  for blog in blogs: # 遍历博客列表
   title = blog.css('.title::text').extract_first() # 提取标题
   link = blog.css('.title::attr(href)').extract_first() # 提取链接
   nickname = blog.css('.nickname::text').extract_first() # 提作者
   print("标题:",title) # 打印标题
   # print("链接:", link)
   # print("作者:", nickname)

最后别忘了执行爬虫命令

scrapy crawl jianshublog

整个项目就完成啦

下一讲我们把文章数据爬取出来，存储在csv文件里面

到此这篇关于一文读懂python Scrapy爬虫框架的文章就介绍到这了,更多相关python Scrapy爬虫框架内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

一文读懂python Scrapy爬虫框架

- Author -

曾亲桂林

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python解析文件示例

Jan 23 Python

Python简单的制作图片验证码实例

May 31 Python

python3.4用循环往mysql5.7中写数据并输出的实现方法

Jun 20 Python

tornado 多进程模式解析

Jan 15 Python

Python WSGI的深入理解

Aug 01 Python

Python设计模式之桥接模式原理与用法实例分析

Jan 10 Python

python字符串常用方法及文件简单读写的操作方法

Mar 04 Python

Spark处理数据排序问题如何避免OOM

May 21 Python

Keras - GPU ID 和显存占用设定步骤

Jun 22 Python

Python调用C语言程序方法解析

Jul 07 Python

Python 机器学习工具包SKlearn的安装与使用

May 14 Python

Python制作表白爱心合集

Jan 22 Python

Django如何重置migration的几种情景

Feb 24 #Python

Django中的DateTimeField和DateField实现

Feb 24 #Python

Python制作运行进度条的实现效果(代码运行不无聊)

Feb 24 #Python

学点简单的Django之第一个Django程序的实现

Feb 24 #Python

python单例模式的应用场景实例讲解

Feb 24 #Python

python编写扎金花小程序的实例代码

Feb 23 #Python

Python项目实战之使用Django框架实现支付宝付款功能

Feb 23 #Python

You might like

用ＰＨＰ和ＡＣＣＥＳＳ写聊天室(三)

2006/10/09 PHP

IIS6.0中配置php服务全过程解析

2013/08/07 PHP

php实现的简易扫雷游戏实例

2015/07/09 PHP

yii2超好用的日期组件和时间组件

2016/05/05 PHP

php封装的单文件(图片)上传类完整实例

2016/10/18 PHP

比较简单的异步加载JS文件的代码

2009/07/18 Javascript

多浏览器兼容性比较好的复制到剪贴板的js代码

2011/10/09 Javascript

jQuery层次选择器选择元素使用介绍

2013/04/18 Javascript

左侧是表头的JS表格控件(自写,网上没有的)

2013/06/04 Javascript

jQuery中ready事件用法实例

2015/01/19 Javascript

详解js图片轮播效果实现原理

2015/12/17 Javascript

Bootstrap导航简单实现代码

2017/03/06 Javascript

详解Vue.js入门环境搭建

2017/03/17 Javascript

JS实现的合并两个有序链表算法示例

2019/02/25 Javascript

[03:22]DAC最前线（第二期）—DOTA2亚洲邀请赛主赛场周边及线路探访

2015/01/24 DOTA

[01:06:39]DOTA2上海特级锦标赛主赛事日 - 1 胜者组第一轮#1Liquid VS Alliance第三局

2016/03/02 DOTA

跨平台python异步回调机制实现和使用方法

2013/11/26 Python

Python实现多线程抓取妹子图

2015/08/08 Python

python中class的定义及使用教程

2019/09/18 Python

python误差棒图errorbar()函数实例解析

2020/02/11 Python

Python查找不限层级Json数据中某个key或者value的路径方式

2020/02/27 Python

python 绘制场景热力图的示例

2020/09/23 Python

用canvas做一个DVD待机动画的实现代码

2019/04/12 HTML / CSS

学校联谊活动方案

2014/02/15 职场文书

2014年校务公开工作总结

2014/12/18 职场文书

逃课检讨书怎么写

2015/01/01 职场文书

裁员通知

2015/04/25 职场文书

行政答辩状范文

2015/05/21 职场文书

喋血孤城观后感

2015/06/08 职场文书

2016机关干部作风建设心得体会

2016/01/21 职场文书

《青山不老》教学反思

2016/02/22 职场文书

初中教务主任竞聘演讲稿（范文）

2019/08/20 职场文书

opencv深入浅出了解机器学习和深度学习

2022/03/17 Python

Go语言入门exec的基本使用

2022/05/20 Golang

使用CSS实现黑白格背景效果

2022/06/01 HTML / CSS

SpringBoot详解整合Redis缓存方法

2022/07/15 Java/Android