scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python监控文件或目录变化
Jun 07 Python
详解python之配置日志的几种方式
May 22 Python
python matplotlib绘图,修改坐标轴刻度为文字的实例
May 25 Python
Pandas过滤dataframe中包含特定字符串的数据方法
Nov 07 Python
python中报错"json.decoder.JSONDecodeError: Expecting value:"的解决
Apr 29 Python
Django Celery异步任务队列的实现
Jul 24 Python
Python 实现文件读写、坐标寻址、查找替换功能
Sep 11 Python
python滑块验证码的破解实现
Nov 10 Python
Python实现井字棋小游戏
Mar 09 Python
Python执行时间的几种计算方法
Jul 31 Python
详解python方法之绑定方法与非绑定方法
Aug 17 Python
解决Windows下python和pip命令无法使用的问题
Aug 31 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
PHP 全角转半角实现代码
2010/05/16 PHP
phpmyadmin配置文件现在需要绝密的短密码(blowfish_secret)的2种解决方法
2014/05/07 PHP
php连接与操作PostgreSQL数据库的方法
2014/12/25 PHP
基于PHP实现假装商品限时抢购繁忙的效果
2015/10/16 PHP
在WordPress中实现发送http请求的相关函数解析
2015/12/29 PHP
php提高脚本性能的4个技巧
2020/08/18 PHP
jQuery DOM操作实例
2014/03/05 Javascript
使用javascript实现Iframe自适应高度
2014/12/24 Javascript
JS实现禁止鼠标右键的功能
2016/10/15 Javascript
jQuery快速高效制作网页交互特效
2017/02/24 Javascript
巧用weui.topTips验证数据的实例
2017/04/17 Javascript
JS数组操作之增删改查的简单实现
2017/08/21 Javascript
js replace替换字符串同时替换多个方法
2018/11/27 Javascript
小程序自定义日历效果
2018/12/29 Javascript
如何解决日期函数new Date()浏览器兼容性问题
2019/09/11 Javascript
layui form表单提交后实现自动刷新
2019/10/25 Javascript
[36:13]Mineski vs iG 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
[56:48]FNATIC vs EG 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/16 DOTA
[01:42]DOTA2 – 虚无之灵
2019/08/25 DOTA
Python多线程编程(二):启动线程的两种方法
2015/04/05 Python
python使用opencv进行人脸识别
2017/04/07 Python
windows下安装python的C扩展编译环境(解决Unable to find vcvarsall.bat)
2018/02/21 Python
Python多重继承的方法解析执行顺序实例分析
2018/05/26 Python
python实战串口助手_解决8串口多个发送的问题
2019/06/12 Python
python中使用ctypes调用so传参设置遇到的问题及解决方法
2019/06/19 Python
Python 将 QQ 好友头像生成祝福语的实现代码
2020/05/03 Python
pycharm永久激活超详细教程
2020/10/29 Python
IE下实现类似CSS3 text-shadow文字阴影的几种方法
2011/05/11 HTML / CSS
小学生期末自我鉴定
2014/01/19 职场文书
物流管理专业毕业生自荐信
2014/03/04 职场文书
2014年国培研修感言
2014/03/09 职场文书
工厂门卫岗位职责范本
2014/04/04 职场文书
财务部岗位职责
2015/02/03 职场文书
中学音乐课教学反思
2016/02/18 职场文书
护士年终工作总结不会写?各科护士模板总结
2020/01/02 职场文书
【海涛教你打DOTA】剑圣第一人称视角解说
2022/04/01 DOTA