scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python实现的简单RPG游戏流程实例
Jun 28 Python
小米5s微信跳一跳小程序python源码
Jan 08 Python
78行Python代码实现现微信撤回消息功能
Jul 26 Python
浅谈Python中eval的强大与危害
Mar 13 Python
Django命名URL和反向解析URL实现解析
Aug 09 Python
基于Python2、Python3中reload()的不同用法介绍
Aug 12 Python
Python中的延迟绑定原理详解
Oct 11 Python
Python 余弦相似度与皮尔逊相关系数 计算实例
Dec 23 Python
python实现图像全景拼接
Mar 27 Python
Python数据类型最全知识总结
May 31 Python
Python字符串常规操作小结
Apr 03 Python
Python数据可视化之Seaborn的安装及使用
Apr 19 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
set_include_path在win和linux下的区别
2008/01/10 PHP
php xml文件操作代码(一)
2009/03/20 PHP
微信随机生成红包金额算法php版
2016/07/21 PHP
phpstorm激活码2020附使用详细教程
2020/09/25 PHP
jquery控制listbox中项的移动并排序
2009/11/12 Javascript
JS高级笔记
2011/07/13 Javascript
jQuery中trigger()方法用法实例
2015/01/19 Javascript
JS+CSS实现感应鼠标渐变显示DIV层的方法
2015/02/20 Javascript
jQuery mobile在页面加载时添加加载中效果 document.ready 和window.onload执行顺序比较
2016/07/14 Javascript
Vuejs实现带样式的单文件组件新方法
2017/05/02 Javascript
详解10分钟学会vue滚动行为
2017/09/21 Javascript
利用node实现一个批量重命名文件的函数
2017/12/21 Javascript
详解vue中使用protobuf踩坑记
2019/05/07 Javascript
vue 清空input标签 中file的值操作
2020/07/21 Javascript
python采用django框架实现支付宝即时到帐接口
2016/05/17 Python
Python入门教程之运算符与控制流
2016/08/17 Python
用python实现刷点击率的示例代码
2019/02/21 Python
Python3获取电脑IP、主机名、Mac地址的方法示例
2019/04/11 Python
python 模拟创建seafile 目录操作示例
2019/09/26 Python
Python文本处理简单易懂方法解析
2019/12/19 Python
Python在字符串中处理html和xml的方法
2020/07/31 Python
L’AGENCE官网:加州女装品牌
2018/06/03 全球购物
环保专业大学生职业规划设计
2014/01/10 职场文书
产品促销活动策划书
2014/01/15 职场文书
银行工作检查书范文
2014/01/31 职场文书
《小鹰学飞》教学反思
2014/04/23 职场文书
护理目标管理责任书
2014/07/25 职场文书
教师党的群众路线教育实践活动个人整改方案
2014/10/31 职场文书
转让协议书
2015/01/27 职场文书
2015秋季运动会通讯稿
2015/07/18 职场文书
学困生转化工作总结
2015/08/13 职场文书
微软PC Health Check电脑健康状况检查应用下载(Win11配置检测工具)
2021/06/26 数码科技
MySQL图形化管理工具Navicat安装步骤
2021/12/04 MySQL
vue ref如何获取子组件属性值
2022/03/31 Vue.js
Python如何用re模块实现简易tokenizer
2022/05/02 Python
python实现学生信息管理系统(面向对象)
2022/06/05 Python