记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python常见数据结构详解
Jul 24 Python
在Python上基于Markov链生成伪随机文本的教程
Apr 17 Python
Python发送以整个文件夹的内容为附件的邮件的教程
May 06 Python
Python基础中所出现的异常报错总结
Nov 19 Python
Python中标准库OS的常用方法总结大全
Jul 19 Python
Python中django学习心得
Dec 06 Python
Python Matplotlib 基于networkx画关系网络图
Jul 10 Python
浅析python,PyCharm,Anaconda三者之间的关系
Nov 27 Python
python实现百度OCR图片识别过程解析
Jan 17 Python
浅谈python之自动化运维(Paramiko)
Jan 31 Python
Tensorflow中tf.ConfigProto()的用法详解
Feb 06 Python
python基于win32api实现键盘输入
Dec 09 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP验证码类代码( 最新修改,完全定制化! )
2010/12/02 PHP
Zend Guard使用指南及问题处理
2015/01/07 PHP
php使用unset()删除数组中某个单元(键)的方法
2015/02/17 PHP
PHP结合jQuery.autocomplete插件实现输入自动完成提示的功能
2015/04/27 PHP
微信公众平台开发-微信服务器IP接口实例(含源码)
2017/03/05 PHP
JavaScript 监听textarea中按键事件
2009/10/08 Javascript
一个关于javascript匿名函数的问题分析
2012/03/30 Javascript
简单的js表单验证函数
2013/10/28 Javascript
javascript学习笔记--数字格式类型
2014/05/22 Javascript
重写document.write实现无阻塞加载js广告(补充)
2014/12/12 Javascript
javascript实现限制上传文件大小
2015/02/06 Javascript
jquery+css实现绚丽的横向二级下拉菜单-附源码下载
2015/08/23 Javascript
jQuery实现带延时功能的水平多级菜单效果【附demo源码下载】
2016/09/21 Javascript
图片加载完成再执行事件的实例
2017/11/16 Javascript
Angular4.0中引入laydate.js日期插件的方法教程
2017/12/25 Javascript
vue计算属性时v-for处理数组时遇到的一个bug问题
2018/01/21 Javascript
AngularJS与后端php的数据交互方法
2018/08/13 Javascript
通过说明与示例了解js五种设计模式
2019/06/17 Javascript
json解析大全 双引号、键值对不在一起的情况
2019/12/06 Javascript
《javascript设计模式》学习笔记七:Javascript面向对象程序设计组合模式详解
2020/04/08 Javascript
浅谈vue中document.getElementById()拿到的是原值的问题
2020/07/26 Javascript
Python中的闭包详细介绍和实例
2014/11/21 Python
Python实现通过文件路径获取文件hash值的方法
2017/04/29 Python
python使用json序列化datetime类型实例解析
2018/02/11 Python
对python修改xml文件的节点值方法详解
2018/12/24 Python
pyqt5 QScrollArea设置在自定义侧(任何位置)
2019/09/25 Python
python爬虫使用requests发送post请求示例详解
2020/08/05 Python
Python中全局变量和局部变量的理解与区别
2021/02/07 Python
阿迪达斯印度官方商城:adidas India
2017/03/26 全球购物
招聘单位介绍信
2014/01/14 职场文书
艺术学院毕业生自我评价
2014/03/02 职场文书
车队司机自我鉴定
2014/03/02 职场文书
感恩父母主题班会
2015/08/12 职场文书
班主任经验交流心得体会
2015/11/02 职场文书
python 用递归实现通用爬虫解析器
2021/04/16 Python
Java字符缓冲流BufferedWriter
2022/04/09 Java/Android