记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python WindowsError的错误代码详解
Jul 23 Python
Python实现将MySQL数据库表中的数据导出生成csv格式文件的方法
Jan 11 Python
[原创]windows下Anaconda的安装与配置正解(Anaconda入门教程)
Apr 05 Python
Python 访问限制 private public的详细介绍
Oct 16 Python
Django框架首页和登录页分离操作示例
May 28 Python
python 并发编程 非阻塞IO模型原理解析
Aug 20 Python
django 中使用DateTime常用的时间查询方式
Dec 03 Python
python 字典套字典或列表的示例
Dec 16 Python
Python实现猜年龄游戏代码实例
Mar 25 Python
Python中flatten( ),matrix.A用法说明
Jul 05 Python
Python Socket多线程并发原理及实现
Dec 11 Python
python数据库批量插入数据的实现(executemany的使用)
Apr 30 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP中的Session对象如何使用
2015/09/25 PHP
获取Javscript执行函数名称的方法
2006/12/22 Javascript
jQuery选择头像并实时显示的代码
2010/06/27 Javascript
setTimeout自动触发一个js的方法
2014/01/15 Javascript
jquery实现网页查找功能示例分享
2014/02/12 Javascript
仿淘宝TAB切换搜索框搜索切换的相关内容
2014/09/21 Javascript
JavaScript清空数组元素的两种方法简单比较
2015/07/10 Javascript
使用struts2+Ajax+jquery验证用户名是否已被注册
2016/03/22 Javascript
zepto与jquery的区别及zepto的不同使用8条小结
2016/07/28 Javascript
AngularJS基础 ng-show 指令简单示例
2016/08/03 Javascript
JavaScript中return用法示例
2016/11/29 Javascript
bootstrap导航栏、下拉菜单、表单的简单应用实例解析
2017/01/06 Javascript
Angularjs2不同组件间的通信实例代码
2017/05/06 Javascript
基于vue2框架的机器人自动回复mini-project实例代码
2017/06/13 Javascript
zTree获取当前节点的下一级子节点数实例
2017/09/05 Javascript
Mongoose中document与object的区别示例详解
2017/09/18 Javascript
基于匀速运动的实例讲解(侧边栏,淡入淡出)
2017/10/17 Javascript
微信小程序scroll-view实现滚动穿透和阻止滚动的方法
2018/08/20 Javascript
layUI实现前端分页和后端分页
2019/07/27 Javascript
vue实现将数据存入vuex中以及从vuex中取出数据
2019/11/08 Javascript
vue 使用外部JS与调用原生API操作示例
2019/12/02 Javascript
JS中this的4种绑定规则详解
2020/02/04 Javascript
微信小程序绘制半圆(弧形)进度条
2020/11/18 Javascript
Python根据区号生成手机号码的方法
2015/07/08 Python
Python set常用操作函数集锦
2017/11/15 Python
浅谈python 导入模块和解决文件句柄找不到问题
2018/12/15 Python
python 将大文件切分为多个小文件的实例
2019/01/14 Python
详解Python3之数据指纹MD5校验与对比
2019/06/11 Python
Django认证系统user对象实现过程解析
2020/03/02 Python
Python常用库Numpy进行矩阵运算详解
2020/07/21 Python
Python3读写ini配置文件的示例
2020/11/06 Python
python基于opencv实现人脸识别
2021/01/04 Python
canvas 绘图时位置偏离的问题解决
2020/09/16 HTML / CSS
Myprotein瑞士官方网站:运动营养和健身网上商店
2019/09/25 全球购物
自荐信要包含哪些内容
2013/11/06 职场文书
开学第一周总结
2015/07/16 职场文书