scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
深入浅析python with语句简介
Apr 11 Python
PyTorch快速搭建神经网络及其保存提取方法详解
Apr 28 Python
Django项目中model的数据处理以及页面交互方法
May 30 Python
Python socket套接字实现C/S模式远程命令执行功能案例
Jul 06 Python
pandas DataFrame行或列的删除方法的实现示例
Aug 02 Python
Pytorch抽取网络层的Feature Map(Vgg)实例
Aug 20 Python
Python(PyS60)实现简单语音整点报时
Nov 18 Python
Python 矩阵转置的几种方法小结
Dec 02 Python
python烟花效果的代码实例
Feb 25 Python
Python如何用wx模块创建文本编辑器
Jun 07 Python
TensorFlow的自动求导原理分析
May 26 Python
python实现简易自习室座位预约系统
Jun 30 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
2020年4月放送!《Princess Connect Re:Dive》制作组 & 角色声优公开!
2020/03/06 日漫
PHP数字字符串左侧补0、字符串填充和自动补齐的几种方法
2014/05/10 PHP
php实现的click captcha点击验证码类实例
2014/09/23 PHP
10个php函数实用却不常见
2015/10/13 PHP
YII框架中搜索分页jQuery写法详解
2016/12/19 PHP
php正则提取html图片(img)src地址与任意属性的方法
2017/02/08 PHP
ExtJS 工具栏 分页事件参数
2010/03/05 Javascript
一个原生的用户等级的进度条
2010/07/03 Javascript
javascript中万恶的function实例分析
2011/05/25 Javascript
jquery+正则实现统一的表单验证
2015/09/20 Javascript
jQuery简单实现input文本框内灰色提示文本效果的方法
2015/12/02 Javascript
vue拦截器Vue.http.interceptors.push使用详解
2017/04/22 Javascript
JS请求servlet功能示例
2017/06/01 Javascript
JavaScript监听手机物理返回键的两种解决方法
2017/08/14 Javascript
vue中Axios的封装与API接口的管理详解
2018/08/09 Javascript
vue-router源码之history类的浅析
2019/05/21 Javascript
Python机器学习之决策树算法实例详解
2017/12/06 Python
python 将数据保存为excel的xls格式(实例讲解)
2018/05/03 Python
Python3基础教程之递归函数简单示例
2019/06/07 Python
浅谈django2.0 ForeignKey参数的变化
2019/08/06 Python
python 进程 进程池 进程间通信实现解析
2019/08/23 Python
使用python 将图片复制到系统剪贴中
2019/12/13 Python
Python常见反爬虫机制解决方案
2020/06/01 Python
Python爬虫代理池搭建的方法步骤
2020/09/28 Python
python 制作本地应用搜索工具
2021/02/27 Python
法国亚马逊官方网站:Amazon.fr
2020/12/19 全球购物
Weblogic的布署方式
2013/08/23 面试题
安全教育实施方案
2014/03/02 职场文书
宣传标语大全
2014/07/01 职场文书
家长会欢迎词
2015/01/23 职场文书
幼儿园工作总结2015
2015/04/01 职场文书
就业证明函
2015/06/17 职场文书
2016年3月份红领巾广播稿
2015/12/21 职场文书
java泛型通配符详解
2021/07/25 Java/Android
JavaScript 定时器详情
2021/11/11 Javascript
Python os和os.path模块详情
2022/04/02 Python