scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python冒泡排序算法的实现代码
Nov 21 Python
python列表操作实例
Jan 14 Python
Python函数式编程指南(一):函数式编程概述
Jun 24 Python
python+requests+unittest API接口测试实例(详解)
Jun 10 Python
用python编写第一个IDA插件的实例
May 29 Python
三步实现Django Paginator分页的方法
Jun 11 Python
Python类中的装饰器在当前类中的声明与调用详解
Apr 15 Python
Ubuntu 20.04安装Pycharm2020.2及锁定到任务栏的问题(小白级操作)
Oct 29 Python
Scrapy+Selenium自动获取cookie爬取网易云音乐个人喜爱歌单
Feb 01 Python
python自动生成sql语句的脚本
Feb 24 Python
python 进阶学习之python装饰器小结
Sep 04 Python
如何Python使用re模块实现okenizer
Apr 30 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
一些常用的php函数
2006/12/06 PHP
php smarty的预保留变量总结
2008/12/04 PHP
php中session_unset与session_destroy的区别分析
2011/06/16 PHP
浅谈thinkphp5 instance 的简单实现
2017/07/30 PHP
如何简单地用YUI做JavaScript动画
2007/03/10 Javascript
javascript写的一个模拟阅读小说的程序
2014/04/04 Javascript
nodejs实现HTTPS发起POST请求
2015/04/23 NodeJs
thinkphp实现无限分类(使用递归)
2015/12/19 Javascript
jQuery包裹节点用法完整示例
2016/09/13 Javascript
Vue2.0 slot分发内容与props验证的方法
2017/12/12 Javascript
基于axios封装fetch方法及调用实例
2018/02/05 Javascript
vue移动端路由切换实例分析
2018/05/14 Javascript
JavaScript数组,JSON对象实现动态添加、修改、删除功能示例
2018/05/26 Javascript
Vue.js 时间转换代码及时间戳转时间字符串
2018/10/16 Javascript
AjaxFileUpload.js实现异步上传文件功能
2019/04/19 Javascript
[01:00]DOTA2 store: Collection of Artisan's Wonders
2015/08/12 DOTA
[03:43]TI9战队采访——PSG.LGD
2019/08/22 DOTA
Python实现的生成自我描述脚本分享(很有意思的程序)
2014/07/18 Python
用pycharm开发django项目示例代码
2019/06/13 Python
django一对多模型以及如何在前端实现详解
2019/07/24 Python
css3模拟jq点击事件的实例代码
2017/07/06 HTML / CSS
纯CSS实现颜色渐变效果(包含环形渐变、线性渐变、彩虹效果等)
2014/05/07 HTML / CSS
CSS3中颜色线性渐变实战
2015/07/18 HTML / CSS
Canal官网:巴西女性时尚品牌
2019/10/16 全球购物
俄罗斯鲜花递送:AMF
2020/04/24 全球购物
简单的JAVA编程面试题
2013/03/19 面试题
幼师岗位求职简历的自荐信格式
2013/09/21 职场文书
物流管理应届生求职信
2013/11/07 职场文书
应用心理学个人求职信范文
2013/12/11 职场文书
全国道德模范事迹
2014/02/01 职场文书
粗加工管理制度
2014/02/04 职场文书
机关领导查摆四风思想汇报
2014/09/13 职场文书
法律进社区活动总结
2015/05/07 职场文书
呐喊读书笔记
2015/06/30 职场文书
浅析Python中的随机采样和概率分布
2021/12/06 Python
vue配置型表格基于el-table拓展之table-plus组件
2022/04/12 Vue.js