scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
低版本中Python除法运算小技巧
Apr 05 Python
详解python之多进程和进程池(Processing库)
Jun 09 Python
python3.6.3安装图文教程 TensorFlow安装配置方法
Jun 24 Python
python中列表的切片与修改知识点总结
Jul 23 Python
python超时重新请求解决方案
Oct 21 Python
python栈的基本定义与使用方法示例【初始化、赋值、入栈、出栈等】
Oct 24 Python
Python中zipfile压缩文件模块的基本使用教程
Jun 14 Python
Python性能分析工具py-spy原理用法解析
Jul 27 Python
python如何写个俄罗斯方块
Nov 06 Python
基于Python实现天天酷跑功能
Jan 06 Python
通用的Django注册功能模块实现方法
Feb 05 Python
Python爬虫之爬取最新更新的小说网站
May 06 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
PHP模拟http请求的方法详解
2016/11/09 PHP
js树形控件脚本代码
2008/07/24 Javascript
JQuery触发radio或checkbox的change事件
2012/12/18 Javascript
jquery重新播放css动画所遇问题解决
2013/08/21 Javascript
JQuery实现展开关闭层的方法
2015/02/17 Javascript
JavaScript实现按照指定长度为数字前面补零输出的方法
2015/03/19 Javascript
使用纯javascript实现经典扫雷游戏
2015/04/23 Javascript
js实现表单多按钮提交action的处理方法
2015/10/24 Javascript
使用JQuery FancyBox插件实现图片展示特效
2015/11/16 Javascript
基于JS实现省市联动效果代码分享
2016/06/06 Javascript
Javascript中常用类型的格式化方法小结
2016/12/26 Javascript
解决VUEX刷新的时候出现数据消失
2017/07/03 Javascript
了解JavaScript表单操作和表单域
2019/05/27 Javascript
Element-ui DatePicker显示周数的方法示例
2019/07/19 Javascript
vue-cli在 history模式下的配置详解
2019/11/26 Javascript
vue中 v-for循环的用法详解
2020/02/19 Javascript
[57:53]Secret vs Pain 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
Python操作列表的常用方法分享
2014/02/13 Python
用python实现面向对像的ASP程序实例
2014/11/10 Python
python调用系统ffmpeg实现视频截图、http发送
2018/03/06 Python
解决在Python编辑器pycharm中程序run正常debug错误的问题
2019/01/17 Python
Python函数和模块的使用总结
2019/05/20 Python
python 解决cv2绘制中文乱码问题
2019/12/23 Python
Pytorch实现基于CharRNN的文本分类与生成示例
2020/01/08 Python
Scrapy框架基本命令与settings.py设置
2020/02/06 Python
Python如何使用PIL Image制作GIF图片
2020/05/16 Python
OpenCV+python实现膨胀和腐蚀的示例
2020/12/21 Python
使用numpngw和matplotlib生成png动画的示例代码
2021/01/24 Python
深入理解HTML的FormData对象
2016/05/17 HTML / CSS
外科实习自我鉴定
2013/10/06 职场文书
运动会稿件50字
2014/02/17 职场文书
微笑面对生活演讲稿
2014/05/13 职场文书
大学生学习计划书
2014/09/15 职场文书
教师群众路线剖析材料
2014/09/29 职场文书
亮剑精神观后感
2015/06/05 职场文书
HTML+css盒子模型案例(圆,半圆等)“border-radius” 简单易上手
2021/05/10 HTML / CSS