记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python列表与元组详解实例
Nov 01 Python
python目录操作之python遍历文件夹后将结果存储为xml
Jan 27 Python
python如何使用正则表达式的前向、后向搜索及前向搜索否定模式详解
Nov 08 Python
python书籍信息爬虫实例
Mar 19 Python
Python装饰器的执行过程实例分析
Jun 04 Python
pandas.DataFrame选取/排除特定行的方法
Jul 03 Python
Python JSON格式数据的提取和保存的实现
Mar 22 Python
基于Python实现扑克牌面试题
Dec 11 Python
python实现二分类和多分类的ROC曲线教程
Jun 15 Python
Python:__eq__和__str__函数的使用示例
Sep 26 Python
Python从MySQL数据库中面抽取试题,生成试卷
Jan 14 Python
一篇文章弄懂Python中的内建函数
Aug 07 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
CodeIgniter启用缓存和清除缓存的方法
2014/06/12 PHP
深入理解Yii2.0乐观锁与悲观锁的原理与使用
2017/07/26 PHP
基于jQuery的固定表格头部的代码(IE6,7,8测试通过)
2010/05/18 Javascript
js 弹出新页面避免被浏览器、ad拦截的一种新方法
2014/04/30 Javascript
jquery制作LED 时钟特效
2015/02/01 Javascript
js绘制圆形和矩形的方法
2015/08/05 Javascript
jQuery Validate让普通按钮触发表单验证的方法
2016/12/15 Javascript
EasyUI为Numberbox添加blur事件的方法
2017/03/05 Javascript
JavaScript:ES2019 的新特性(译)
2019/08/08 Javascript
[48:21]林俊杰圣堂刺客超神杀戮秀
2014/10/29 DOTA
Python对两个有序列表进行合并和排序的例子
2014/06/13 Python
在Django的通用视图中处理Context的方法
2015/07/21 Python
Diango + uwsgi + nginx项目部署的全过程(可外网访问)
2018/04/22 Python
完美解决Pycharm无法导入包的问题 Unresolved reference
2018/05/18 Python
python实现控制台打印的方法
2019/01/12 Python
python selenium实现发送带附件的邮件代码实例
2019/12/10 Python
python+selenium+chromedriver实现爬虫示例代码
2020/04/10 Python
python3中datetime库,time库以及pandas中的时间函数区别与详解
2020/04/16 Python
简单了解Java Netty Reactor三种线程模型
2020/04/26 Python
matplotlib 使用 plt.savefig() 输出图片去除旁边的空白区域
2021/01/05 Python
Python 内存管理机制全面分析
2021/01/16 Python
CSS3中媒体查询结合rem布局适配手机屏幕
2019/06/10 HTML / CSS
canvas画布实现手写签名效果的示例代码
2019/04/23 HTML / CSS
环法自行车赛官方商店:Le Tour de France
2017/08/27 全球购物
STAY JAPAN台湾:预订日本民宿
2018/07/22 全球购物
Christys’ Hats官网:英国帽子制造商
2018/11/28 全球购物
Weblogic和WebSphere不同特点
2012/05/09 面试题
创新型城市实施方案
2014/03/06 职场文书
司仪主持词两篇
2014/03/22 职场文书
关于读书的活动方案
2014/08/14 职场文书
事业单位个人查摆问题及整改措施
2014/10/28 职场文书
交通事故一次性赔偿协议书范本
2014/11/02 职场文书
2014年车间主任工作总结
2014/12/10 职场文书
建党伟业的观后感
2015/06/01 职场文书
Python Matplotlib绘制两个Y轴图像
2022/04/13 Python
三星 3nm 芯片将于第二季度开始量产
2022/04/29 数码科技