scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python使用Socket(Https)Post登录百度的实现代码
May 18 Python
Python 自动补全(vim)
Nov 30 Python
Python连接数据库学习之DB-API详解
Feb 07 Python
Numpy之文件存取的示例代码
Aug 03 Python
windows7 32、64位下python爬虫框架scrapy环境的搭建方法
Nov 29 Python
python url 参数修改方法
Dec 26 Python
Python+OpenCV实现旋转文本校正方式
Jan 09 Python
Pytorch 保存模型生成图片方式
Jan 10 Python
python+opencv实现移动侦测(帧差法)
Mar 20 Python
解决python Jupyter不能导入外部包问题
Apr 15 Python
Python matplotlib 绘制双Y轴曲线图的示例代码
Jun 12 Python
浅谈Selenium 控制浏览器的常用方法
Dec 04 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
用PHP制作的意见反馈表源码
2007/03/11 PHP
php 生成自动创建文件夹并上传文件的示例代码
2014/03/07 PHP
php实现mysql事务处理的方法
2014/12/25 PHP
利用PHP如何实现Socket服务器
2015/09/23 PHP
php实现统计目录文件大小的函数
2015/12/25 PHP
Zend Framework框架中实现Ajax的方法示例
2017/06/27 PHP
PHP+JS实现的实时搜索提示功能
2018/03/13 PHP
laravel中的一些简单实用功能
2018/11/03 PHP
Riot.js 快速的JavaScript单元测试框架
2009/11/09 Javascript
使用jQuery的将桌面应用程序引入浏览器
2010/11/19 Javascript
精心挑选的15款优秀jQuery 本特效插件和教程
2012/08/06 Javascript
一个JavaScript用逗号分割字符串实例
2014/09/22 Javascript
AngularJS 视图详解及示例代码
2016/08/17 Javascript
AngularJS 自定义过滤器详解及实例代码
2016/09/14 Javascript
angular使用bootstrap方法手动启动的实例代码
2017/07/18 Javascript
浅谈原型对象的常用开发模式
2017/07/22 Javascript
vuex学习之Actions的用法详解
2017/08/29 Javascript
详解 vue.js用法和特性
2017/10/15 Javascript
vue 实现强制类型转换 数字类型转为字符串
2019/11/07 Javascript
Vue v-model组件封装(类似弹窗组件)
2020/01/08 Javascript
vue css 引入asstes中的图片无法显示的四种解决方法
2020/03/16 Javascript
Python实现计算最小编辑距离
2016/03/17 Python
Python简单定义与使用字典dict的方法示例
2017/07/25 Python
使用python实现knn算法
2017/12/20 Python
pycharm 主题theme设置调整仿sublime的方法
2018/05/23 Python
python logging.info在终端没输出的解决
2020/05/12 Python
Myprotein亚太地区:欧洲第一在线运动营养品牌
2020/12/20 全球购物
怎样写好自我鉴定
2013/12/04 职场文书
幼儿园中秋节活动方案
2014/02/06 职场文书
高校教师自荐信范文
2014/03/13 职场文书
捐款倡议书
2014/04/14 职场文书
学校教师读书活动总结
2014/07/08 职场文书
完整版商业计划书
2014/09/15 职场文书
升职感谢信
2015/01/22 职场文书
施工安全保证书
2015/05/09 职场文书
JavaScript数组reduce()方法的语法与实例解析
2021/07/07 Javascript