记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python模拟新浪微博登陆功能(新浪微博爬虫)
Dec 24 Python
Python用Pillow(PIL)进行简单的图像操作方法
Jul 07 Python
Python 基础教程之str和repr的详解
Aug 20 Python
Python3实现简单可学习的手写体识别(实例讲解)
Oct 21 Python
python实现对指定字符串补足固定长度倍数截断输出的方法
Nov 15 Python
pandas取出重复数据的方法
Jul 04 Python
彻底搞懂 python 中文乱码问题(深入分析)
Feb 28 Python
Python 如何实现访问者模式
Jul 28 Python
Python利用pip安装tar.gz格式的离线资源包
Sep 14 Python
利用python做表格数据处理
Apr 13 Python
浅谈python中的多态
Jun 15 Python
python工具dtreeviz决策树可视化和模型可解释性
Mar 03 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
请离开include_once和require_once
2013/07/18 PHP
PHP开发框架kohana中处理ajax请求的例子
2014/07/14 PHP
PHP中使用sleep造成mysql读取失败的案例和解决方法
2014/08/21 PHP
解决ThinkPHP下使用上传插件Uploadify浏览器firefox报302错误的方法
2015/12/18 PHP
php版微信js-sdk支付接口类用法示例
2016/10/12 PHP
PHP cURL获取微信公众号access_token的实例
2018/04/28 PHP
默认让页面的第一个控件选中的javascript代码
2009/12/26 Javascript
JavaScript的函数式编程基础指南
2016/03/19 Javascript
基于JS实现checkbox全选功能实例代码
2016/10/31 Javascript
bootstrap表格分页实例讲解
2016/12/30 Javascript
javascript完美实现给定日期返回上月日期的方法
2017/06/15 Javascript
json2.js 入门教程之使用方法与实例分析
2017/09/14 Javascript
关于react中组件通信的几种方式详解
2017/12/10 Javascript
p5.js实现斐波那契螺旋的示例代码
2018/03/22 Javascript
在vue项目中引用Iview的方法
2018/09/14 Javascript
Puppeteer 爬取动态生成的网页实战
2018/11/14 Javascript
在小程序中推送模板消息的实现方法
2019/07/22 Javascript
使用localStorage替代cookie做本地存储
2019/09/25 Javascript
[18:20]DOTA2 HEROS教学视频教你分分钟做大人-昆卡
2014/06/11 DOTA
node.js获取参数的常用方法(总结)
2017/05/29 Python
Python Pandas找到缺失值的位置方法
2018/04/12 Python
python语音识别实践之百度语音API
2018/08/30 Python
Python3 使用cookiejar管理cookie的方法
2018/12/28 Python
解决Python设置函数调用超时,进程卡住的问题
2019/08/08 Python
基于pytorch 预训练的词向量用法详解
2020/01/06 Python
基于Django OneToOneField和ForeignKey的区别详解
2020/03/30 Python
Keras中的两种模型:Sequential和Model用法
2020/06/27 Python
台湾乐天市场:日本No.1的网路购物网站
2017/03/22 全球购物
孕妇内衣和胸罩:Cake Maternity
2018/07/16 全球购物
莫斯科珠宝厂官方网站:Miuz
2020/09/19 全球购物
方法名是否可以与构造器的名字相同
2012/06/04 面试题
影视制作岗位职责
2013/12/04 职场文书
公安机关起诉意见书
2015/05/20 职场文书
初一英语教学反思
2016/02/15 职场文书
浅谈pytorch中stack和cat的及to_tensor的坑
2021/05/20 Python
Mysql分析设计表主键为何不用uuid
2022/03/31 MySQL