scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现dict版图遍历示例
Feb 19 Python
Python中使用asyncio 封装文件读写
Sep 11 Python
用python处理MS Word的实例讲解
May 08 Python
Python 创建新文件时避免覆盖已有的同名文件的解决方法
Nov 16 Python
win8.1安装Python 2.7版环境图文详解
Jul 01 Python
python使用flask与js进行前后台交互的例子
Jul 19 Python
Python+opencv+pyaudio实现带声音屏幕录制
Dec 23 Python
使用python绘制cdf的多种实现方法
Feb 25 Python
Python 窗体(tkinter)下拉列表框(Combobox)实例
Mar 04 Python
解决导入django_filters不成功问题No module named 'django_filter'
Jul 15 Python
python中slice参数过长的处理方法及实例
Dec 15 Python
python 基于opencv去除图片阴影
Jan 26 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
ioncube_loader_win_5.2.dll的错误解决方法
2015/01/04 PHP
解决ThinkPHP关闭调试模式时报错的问题汇总
2015/04/22 PHP
PHP使用strstr()函数获取指定字符串后所有字符的方法
2016/01/07 PHP
jquery 跨域访问问题解决方法(笔记)
2011/06/08 Javascript
javascript正则表达式使用replace()替换手机号的方法
2015/01/19 Javascript
JavaScript使用cookie记录临时访客信息的方法
2015/04/07 Javascript
第十章之巨幕页头缩略图与警告框组件
2016/04/25 Javascript
jquery实现垂直和水平菜单导航栏
2020/08/27 Javascript
详解Nodejs的timers模块
2016/12/22 NodeJs
JavaScript与JQUERY获取元素的宽、高和位置
2017/02/26 Javascript
jQuery实现frame之间互通的方法
2017/06/26 jQuery
jQuery简单实现对数组去重及排序操作实例
2017/10/31 jQuery
JavaScript中常见内置函数用法示例
2018/05/14 Javascript
Intellij IDEA搭建vue-cli项目的方法步骤
2018/10/20 Javascript
layui实现form表单同时提交数据和文件的代码
2019/10/25 Javascript
vue计算属性无法监听到数组内部变化的解决方案
2019/11/06 Javascript
JS数组降维的实现Array.prototype.concat.apply([], arr)
2020/04/28 Javascript
vue 实现tab切换保持数据状态
2020/07/21 Javascript
[05:31]干嘛呢兄弟!DOTA2 TI9语音轮盘部分出处
2019/05/14 DOTA
Python实现类似比特币的加密货币区块链的创建与交易实例
2018/03/20 Python
查看Python依赖包及其版本号信息的方法
2019/08/13 Python
python Kmeans算法原理深入解析
2019/08/23 Python
Python semaphore evevt生产者消费者模型原理解析
2020/03/18 Python
利用Python中的Xpath实现一个在线汇率转换器
2020/09/09 Python
详解移动端html5页面长按实现高亮全选文本内容的兼容解决方案
2016/12/03 HTML / CSS
HTML5实现签到 功能
2018/10/09 HTML / CSS
美国知名的女性服饰品牌:LOFT(洛芙特)
2016/08/05 全球购物
英国探险旅游专家:Explore
2018/12/20 全球购物
文员个人求职自荐信
2013/09/21 职场文书
网络技术专业求职信
2014/05/02 职场文书
党员学习正风肃纪思想汇报
2014/09/12 职场文书
工作岗位职责范本
2015/02/15 职场文书
2015年环保局工作总结
2015/05/22 职场文书
幽默导游词开场白
2015/05/29 职场文书
导游词之烟台威海蓬莱
2019/11/14 职场文书
利用前端HTML+CSS+JS开发简单的TODOLIST功能(记事本)
2021/04/13 Javascript