scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中关键字is与==的区别简述
Jul 31 Python
python实现上传样本到virustotal并查询扫描信息的方法
Oct 05 Python
python实现超简单端口转发的方法
Mar 13 Python
收藏整理的一些Python常用方法和技巧
May 18 Python
python用post访问restful服务接口的方法
Dec 07 Python
Python数据类型之Set集合实例详解
May 07 Python
Python 旋转打印各种矩形的方法
Jul 09 Python
python 定义类时,实现内部方法的互相调用
Dec 25 Python
python加密解密库cryptography使用openSSL生成的密匙加密解密
Feb 11 Python
Window系统下Python如何安装OpenCV库
Mar 05 Python
Python Pandas读取Excel日期数据的异常处理方法
Feb 28 Python
Matplotlib绘制条形图的方法你知道吗
Mar 21 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
用来给图片加水印的PHP类
2008/04/09 PHP
解析使用ThinkPHP应该掌握的调试手段
2013/06/20 PHP
CentOS7编译安装php7.1的教程详解
2019/04/18 PHP
php反序列化长度变化尾部字符串逃逸(0CTF-2016-piapiapia)
2020/02/15 PHP
javascript检查日期格式的函数[比较全]
2008/10/17 Javascript
跨浏览器通用、可重用的选项卡tab切换js代码
2011/09/20 Javascript
现如今最流行的JavaScript代码规范
2014/03/08 Javascript
ExtJS4如何给同一个formpanel不同的url
2014/05/02 Javascript
js案例之鼠标跟随jquery版(实例讲解)
2017/07/21 jQuery
记一次webapck4 配置文件无效的解决历程
2018/09/19 Javascript
微信小程序--获取用户地理位置名称(无须用户授权)的方法
2019/04/29 Javascript
Element-ui DatePicker显示周数的方法示例
2019/07/19 Javascript
Nodejs 识别图片类型的方法
2019/08/15 NodeJs
vant中的toast轻提示实现代码
2020/11/04 Javascript
[11:33]DAC2018 4.5SOLO赛决赛 MidOne vs Paparazi第二场
2018/04/06 DOTA
Python读写配置文件的方法
2015/06/03 Python
详解python3百度指数抓取实例
2016/12/12 Python
python实现人脸识别经典算法(一) 特征脸法
2018/03/13 Python
Tensorflow实现卷积神经网络的详细代码
2018/05/24 Python
Python之csv文件从MySQL数据库导入导出的方法
2018/06/21 Python
使用Python正则表达式操作文本数据的方法
2019/05/14 Python
python 用所有标点符号分隔句子的示例
2019/07/15 Python
Python爬取365好书中小说代码实例
2020/02/28 Python
matlab 计算灰度图像的一阶矩,二阶矩,三阶矩实例
2020/04/22 Python
如何快速一次性卸载所有python包(第三方库)呢
2020/10/20 Python
Python3爬虫RedisDump的安装步骤
2021/02/20 Python
英国最大的女性服装零售商:Dorothy Perkins
2017/03/30 全球购物
美国女士时尚珠宝及配饰购物网站:Icing
2018/07/02 全球购物
廉洁自律演讲稿
2014/05/22 职场文书
三八红旗集体先进事迹材料
2014/05/22 职场文书
公司活动总结怎么写
2014/06/25 职场文书
学习计划是什么
2019/04/30 职场文书
详解MySQL连接挂死的原因
2021/05/18 MySQL
mysql脏页是什么
2021/07/26 MySQL
Nebula Graph解决风控业务实践
2022/03/31 MySQL
如何使用SQL Server语句创建表
2022/04/12 SQL Server