scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python使用PyFetion来发送短信的例子
Apr 22 Python
Python基础学习之常见的内建函数整理
Sep 06 Python
APIStar:一个专为Python3设计的API框架
Sep 26 Python
Python判断一个list中是否包含另一个list全部元素的方法分析
Dec 24 Python
Python实现微信自动好友验证,自动回复,发送群聊链接方法
Feb 21 Python
Python-while 计算100以内奇数和的方法
Jun 11 Python
Python绘图Matplotlib之坐标轴及刻度总结
Jun 28 Python
Python实用工具FuckIt.py介绍
Jul 02 Python
详解Django 时间与时区设置问题
Jul 23 Python
python自动分箱,计算woe,iv的实例代码
Nov 22 Python
python爬虫爬取监控教务系统的思路详解
Jan 08 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
Mar 12 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
关于文本留言本的分页代码
2006/10/09 PHP
PHP 遍历XP文件夹下所有文件
2008/11/27 PHP
PHP file_get_contents设置超时处理方法
2013/09/30 PHP
简单了解WordPress开发中update_option()函数的用法
2016/01/11 PHP
php array_key_exists() 与 isset() 的区别
2016/10/24 PHP
PHP 实现页面静态化的几种方法
2017/07/23 PHP
jQuery 白痴级入门教程
2009/11/11 Javascript
查找iframe里元素的方法可传参
2013/09/11 Javascript
AngularJS基础 ng-submit 指令简单示例
2016/08/03 Javascript
jquery实现tab选项卡切换效果(悬停、下方横线动画位移)
2017/05/05 jQuery
Angular简单验证功能示例
2017/12/22 Javascript
JS实现为动态添加的元素增加事件功能示例【基于事件委托】
2018/03/21 Javascript
ES6关于Promise的用法详解
2018/05/07 Javascript
JS与jQuery判断文本框还剩多少字符可以输入的方法
2018/09/01 jQuery
js实现延迟加载的几种方法详解
2019/01/19 Javascript
JavaScript中filter的用法实例分析
2019/02/27 Javascript
Flutter部件内部状态管理小结之实现Vue的v-model功能
2019/06/11 Javascript
Python 爬取携程所有机票的实例代码
2018/06/11 Python
python版大富翁源代码分享
2018/11/19 Python
Python实现平行坐标图的两种方法小结
2019/07/04 Python
Python queue队列原理与应用案例分析
2019/09/27 Python
利用Python绘制有趣的万圣节南瓜怪效果
2019/10/31 Python
Tensorflow的常用矩阵生成方式
2020/01/04 Python
jupyter notebook实现显示行号
2020/04/13 Python
Canvas与图片压缩的示例代码
2017/11/28 HTML / CSS
俄罗斯第一家多品牌在线奢侈品精品店:Aizel.ru
2020/09/06 全球购物
物业管理专业个人的自我评价
2013/11/19 职场文书
迟到检讨书5000字
2014/01/31 职场文书
机械设计及其自动化专业求职信
2014/06/09 职场文书
个人简历自荐信
2014/06/26 职场文书
乡镇党的群众路线对照检查材料
2014/09/24 职场文书
职代会闭幕词
2015/01/28 职场文书
2015年助残日活动总结
2015/03/27 职场文书
深入浅析React中diff算法
2021/05/19 Javascript
Pygame Time时间控制的具体使用详解
2021/11/17 Python
JS前端使用canvas实现扩展物体类和事件派发
2022/08/05 Javascript