详解Scrapy Redis入门实战


Posted in Python onNovember 18, 2020

简介

scrapy-redis是一个基于redis的scrapy组件,用于快速实现scrapy项目的分布式部署和数据爬取,其运行原理如下图所示。

详解Scrapy Redis入门实战

Scrapy-Redis特性

分布式爬取

你可以启动多个共享同一redis队列的爬虫实例,多个爬虫实例将各自提取到或者已请求的Requests在队列中统一进行登记,使得Scheduler在请求调度时能够对重复Requests进行过滤,即保证已经由某一个爬虫实例请求过的Request将不会再被其他的爬虫实例重复请求。

分布式数据处理

将scrapy爬取到的items汇聚到同一个redis队列中,意味着你可以根据你的需要启动尽可能多的共享这个items队列的后处理程序。

Scrapy即插即用组件

Scheduler调度器 + Duplication重复过滤器、Item Pipeline、基础Spider爬虫

Scrapy-Redis示例

本文将以爬取京东所有图书分类下的图书信息为例对Scrapy-Redis的用法进行示例。

开发环境

  • Python 3.7
  • Redis 3.2.100

下面列举出了 Python 中 Scrapy-Redis 所需要的各个模块及其版本:

  • redis 2.10.6
  • redis-py-cluster 1.3.6
  • scrapy-redis 0.6.8
  • scrapy-redis-cluster 0.4

在开发之前需要先安装好以上模块,以scrapy-redis-cluster模块为例,使用pip进行安装的命令如下:

pip install scrapy-redis-cluster # 安装模块
pip install scrapy-redis-cluster==0.4 # 安装模块时指定版本
pip install --upgrade scrapy-redis-cluster # 升级模块版本

创建项目

在Windows命令行执行如下命令完成项目创建:

d:\scrapy>scrapy startproject jd_book

执行完该命令后,将会在当前目录下创建包含下列内容的 jd_book 目录:

详解Scrapy Redis入门实战

定义Item

在items.py中把我们将要爬取的图书字段预先定义好。

# -*- coding: utf-8 -*-

import scrapy

class JdBookItem(scrapy.Item):
  b_cate = scrapy.Field() # 图书所属一级分类名称
  s_cate = scrapy.Field() # 图书所属二级分类名称
  s_href = scrapy.Field() # 图书所属二级分类地址
  book_name = scrapy.Field() # 名称
  book_img = scrapy.Field() # 封面图片地址
  book_author = scrapy.Field() # 作者
  book_press = scrapy.Field() # 出版社
  book_publish_date = scrapy.Field() # 出版日期
  book_sku = scrapy.Field() # 商品编号
  book_price = scrapy.Field() # 价格

创建Spider

在Windows命令行执行如下命令完成Spider创建:

d:\scrapy\jd_book>cd jd_book
d:\scrapy\jd_book>scrapy genspider jdbook jd.com

执行完该命令后,将会在 jd_book 的 spiders 目录下生成一个 jdbook.py 文件 :

详解Scrapy Redis入门实战

 jdbook.py的完整爬虫代码如下。

# -*- coding: utf-8 -*-
import scrapy
import json
import urllib
from copy import deepcopy
from jd_book.items import JdBookItem

class JdbookSpider(scrapy.Spider):
  name = 'jdbook'
  allowed_domains = ['jd.com','3.cn']
  start_urls = ['https://book.jd.com/booksort.html']

  def parse(self, response): # 处理图书分类页
    dt_list = response.xpath("//div[@class='mc']/dl/dt") # 提取一级分类元素
    for dt in dt_list:
      item = JdBookItem()
      item["b_cate"] = dt.xpath("./a/text()").extract_first() # 提取一级分类名称
      em_list = dt.xpath("./following-sibling::dd[1]/em") # 提取二级分类元素
      for em in em_list:
        item["s_cate"] = em.xpath("./a/text()").extract_first() # 提取二级分类名称
        item["s_href"] = em.xpath("./a/@href").extract_first() # 提取二级分类地址
        if item["s_href"] is not None:
          item['s_href'] = "https:" + item['s_href'] # 补全二级分类地址
          yield scrapy.Request(item['s_href'], callback=self.parse_book_list, meta={"item": deepcopy(item)})

  def parse_book_list(self, response): # 处理二级分类下图书列表页
    item = response.meta['item']
    li_list = response.xpath("//div[@id='plist']/ul/li") # 提取所有的图书元素
    for li in li_list:
      item["book_img"] = li.xpath(".//div[@class='p-img']//img/@data-lazy-img").extract_first()
      if item["book_img"] is None:
        item["book_img"] = li.xpath(".//div[@class='p-img']//img/@src").extract_first()
      if item["book_img"] is not None:
        item["book_img"] = "https:"+item["book_img"]
      item["book_name"] = li.xpath(".//div[@class='p-name']/a/em/text()").extract_first().strip()
      item["book_author"] = li.xpath(".//span[@class='author_type_1']/a/text()").extract()
      item["book_press"] = li.xpath(".//span[@class='p-bi-store']/a/@title").extract_first()
      item["book_publish_date"] = li.xpath(".//span[@class='p-bi-date']/text()").extract_first().strip()
      item["book_sku"] = li.xpath("./div/@data-sku").extract_first()
      price_url = "https://p.3.cn/prices/mgets?skuIds=j_{}".format(item["book_sku"]) # 提取图书价格请求地址
      yield scrapy.Request(price_url, callback=self.parse_book_price, meta={"item": deepcopy(item)})

    # 提取列表页下一页地址
    next_url = response.xpath("//a[@class='pn-next']/@href").extract_first()
    if next_url is not None:
      next_url = urllib.parse.urljoin(response.url, next_url)
      # yield scrapy.Request(next_url,callback=self.parse_book_list,meta={"item":item})

  def parse_book_price(self, response):
    item = response.meta['item']
    item["book_price"] = json.loads(response.body.decode())[0]["op"]
    yield item

修改配置

在settings.py 中增加Scrapy-Redis相关配置。

# -*- coding: utf-8 -*-

BOT_NAME = 'jd_book'

SPIDER_MODULES = ['jd_book.spiders']
NEWSPIDER_MODULE = 'jd_book.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False


######################################################
##############下面是Scrapy-Redis相关配置################
######################################################

# 指定Redis的主机名和端口
REDIS_HOST = 'localhost'
REDIS_PORT = 6379

# 调度器启用Redis存储Requests队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有的爬虫实例使用Redis进行重复过滤
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 将Requests队列持久化到Redis,可支持暂停或重启爬虫
SCHEDULER_PERSIST = True

# Requests的调度策略,默认优先级队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 将爬取到的items保存到Redis 以便进行后续处理
ITEM_PIPELINES = {
  'scrapy_redis.pipelines.RedisPipeline': 300
}

启动爬虫

至此京东图书项目就算配置完成了,你可以将项目部署到多台服务器中去,并使用如下命令来启动爬虫:

d:\scrapy\jd_book>scrapy crawl jdbook

爬取到的图书数据结构如下:

详解Scrapy Redis入门实战

相应地,在Redis数据库中同时生成了如下3个键:

详解Scrapy Redis入门实战

其中,jdbook:requests 中保存了待爬取的Request对象;jdbook:dupefilter 中保存了已经爬取过的Request对象的指纹;jdbook:items中保存了爬取到的Item对象。

 通过上述京东图书项目不难看出,scrapy-redis项目与普通的scrapy项目相比,除了在settings.py配置时额外增加了一些scrapy-redis的专属配置外,其他环节完全相同。

参考文章

 https://scrapy-redis.readthedocs.io/en/stable/index.html

到此这篇关于详解Scrapy Redis入门实战的文章就介绍到这了,更多相关Scrapy Redis入门内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用第三方库xlrd来读取Excel示例
Apr 05 Python
详解python中requirements.txt的一切
Mar 03 Python
Python基于opencv的图像压缩算法实例分析
May 03 Python
python3中zip()函数使用详解
Jun 29 Python
python爬虫之自动登录与验证码识别
Jun 15 Python
jupyter notebook 多行输出实例
Apr 09 Python
Python-jenkins模块获取jobs的执行状态操作
May 12 Python
基于Python正确读取资源文件
Sep 14 Python
基于python模拟bfs和dfs代码实例
Nov 19 Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 Python
详解pandas中利用DataFrame对象的.loc[]、.iloc[]方法抽取数据
Dec 13 Python
pandas求平均数和中位数的方法实例
Aug 04 Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
Python监听键盘和鼠标事件的示例代码
Nov 18 #Python
Opencv python 图片生成视频的方法示例
Nov 18 #Python
You might like
php字符串截取中文截取2,单字节截取模式
2007/12/10 PHP
『PHP』PHP截断函数mb_substr()使用介绍
2013/04/22 PHP
不用写JS也能使用EXTJS视频演示
2008/12/29 Javascript
最常用的12种设计模式小结
2011/08/09 Javascript
javascript 基础篇3 类,回调函数,内置对象,事件处理
2012/03/14 Javascript
js控制input框只读实现示例
2014/01/20 Javascript
JavaScript字符串常用类使用方法汇总
2015/04/14 Javascript
使用JQuery实现Ctrl+Enter提交表单的方法
2015/10/22 Javascript
JavaScript jQuery 中定义数组与操作及jquery数组操作
2015/12/18 Javascript
javascript实现标签切换代码示例
2016/05/22 Javascript
JS简单获取当前年月日星期的方法示例
2017/02/07 Javascript
微信小程序云开发 搭建一个管理小程序
2019/05/17 Javascript
Vue 图片压缩并上传至服务器功能
2020/01/15 Javascript
微信小程序吸底区域适配iPhoneX的实现
2020/04/09 Javascript
Element InputNumber 计数器的实现示例
2020/08/03 Javascript
[53:44]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Magma BO3 第一场 1月31日
2021/03/11 DOTA
python使用心得之获得github代码库列表
2014/06/25 Python
Python中subprocess模块用法实例详解
2015/05/20 Python
Python实现快速傅里叶变换的方法(FFT)
2018/07/21 Python
python编写简易聊天室实现局域网内聊天功能
2018/07/28 Python
Django中日期处理注意事项与自定义时间格式转换详解
2018/08/06 Python
python实现词法分析器
2019/01/31 Python
获取Pytorch中间某一层权重或者特征的例子
2019/08/17 Python
使用Python脚本zabbix自定义key监控oracle连接状态
2019/08/28 Python
python2 对excel表格操作完整示例
2020/02/23 Python
Django路由层URLconf作用及原理解析
2020/09/24 Python
python 三种方法提取pdf中的图片
2021/02/07 Python
css3媒体查询中device-width和width的区别详解
2020/03/27 HTML / CSS
美国复古街头服饰精品店:Need Supply Co.
2017/02/22 全球购物
会计人员岗位职责
2015/02/03 职场文书
文言文辞职信
2015/02/28 职场文书
导游词之无锡唐城
2019/12/12 职场文书
MYSQL(电话号码,身份证)数据脱敏的实现
2021/05/28 MySQL
CSS3中Animation实现简单的手指点击动画的示例
2021/07/15 HTML / CSS
微信小程序中wxs文件的一些妙用分享
2022/02/18 Javascript
PHP 时间处理类Carbon
2022/05/20 PHP