记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中的迭代器漫谈
Feb 03 Python
python自然语言编码转换模块codecs介绍
Apr 08 Python
python中numpy的矩阵、多维数组的用法
Feb 05 Python
Python 普通最小二乘法(OLS)进行多项式拟合的方法
Dec 29 Python
python中tkinter的应用:修改字体的实例讲解
Jul 17 Python
python函数局部变量、全局变量、递归知识点总结
Nov 15 Python
django从后台返回html代码的实例
Mar 11 Python
python读取hdfs并返回dataframe教程
Jun 05 Python
python框架flask入门之路由及简单实现方法
Jun 07 Python
Python使用urlretrieve实现直接远程下载图片的示例代码
Aug 17 Python
matplotlib绘制鼠标的十字光标的实现(自定义方式,官方实例)
Jan 10 Python
Python中 range | np.arange | np.linspace三者的区别
Mar 22 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
php实现查看邮件是否已被阅读的方法
2013/12/03 PHP
PHP 实现代码复用的一个方法 traits新特性
2015/02/22 PHP
php微信公众号js-sdk开发应用
2016/11/28 PHP
addRule在firefox下的兼容写法
2006/11/30 Javascript
js文件缓存之版本管理详解
2013/07/05 Javascript
javascript框架设计读书笔记之数组的扩展与修复
2014/12/02 Javascript
jQuery短信验证倒计时功能实现方法详解
2016/05/25 Javascript
谈谈JS中的!!
2017/12/07 Javascript
JavaScript实现京东购物放大镜和选项卡效果的方法分析
2018/07/05 Javascript
jQuery+PHP实现上传裁剪图片
2020/06/29 jQuery
ES6的异步终极解决方案分享
2019/07/11 Javascript
js 使用ajax设置和获取自定义header信息的方法小结
2020/03/12 Javascript
[45:46]2014 DOTA2国际邀请赛中国区预选赛5.21 HGT VS DT
2014/05/23 DOTA
[01:23:59]2018DOTA2亚洲邀请赛 4.1 小组赛 B组 VP vs Secret
2018/04/03 DOTA
python赋值操作方法分享
2013/03/23 Python
Python中使用md5sum检查目录中相同文件代码分享
2015/02/02 Python
python语言中with as的用法使用详解
2018/02/23 Python
python中字符串变二维数组的实例讲解
2018/04/03 Python
python中的tcp示例详解
2018/12/09 Python
对Python3 goto 语句的使用方法详解
2019/02/16 Python
python实现弹窗祝福效果
2019/04/07 Python
python英语单词测试小程序代码实例
2019/09/09 Python
猫咪家具:CatsPlay
2018/11/03 全球购物
PHP如何去执行一个SQL语句
2016/03/05 面试题
电信专业应届生自荐信
2013/09/28 职场文书
学生宿舍管理制度
2014/01/30 职场文书
优秀经理事迹材料
2014/02/01 职场文书
初中学生期末评语
2014/04/24 职场文书
中学生旷课检讨书2篇
2014/10/09 职场文书
大班下学期幼儿评语
2014/12/30 职场文书
自荐信范文
2019/05/20 职场文书
会议承办单位欢迎词
2019/07/09 职场文书
Django debug为True时,css加载失败的解决方案
2021/04/24 Python
Pytorch 统计模型参数量的操作 param.numel()
2021/05/13 Python
oracle索引总结
2021/09/25 Oracle
pd.DataFrame中的几种索引变换的实现
2022/06/16 Python