记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python函数形参用法实例分析
Aug 04 Python
python实现颜色空间转换程序(Tkinter)
Dec 31 Python
python flask实现分页的示例代码
Aug 02 Python
python程序运行进程、使用时间、剩余时间显示功能的实现代码
Jul 11 Python
Django框架视图函数设计示例
Jul 29 Python
django基于restframework的CBV封装详解
Aug 08 Python
Python(PyS60)实现简单语音整点报时
Nov 18 Python
pytorch:实现简单的GAN示例(MNIST数据集)
Jan 10 Python
基于python计算并显示日间、星期客流高峰
May 07 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
Jan 05 Python
详解Python调用系统命令的六种方法
Jan 28 Python
python开发飞机大战游戏
Jul 15 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
探讨php中防止SQL注入最好的方法是什么
2013/06/10 PHP
php通过session防url攻击方法
2014/12/10 PHP
Laravel实现用户注册和登录
2015/01/23 PHP
codeigniter发送邮件并打印调试信息的方法
2015/03/21 PHP
Laravel5.5+ 使用API Resources快速输出自定义JSON方法详解
2020/04/06 PHP
javaScript使用EL表达式的几种方式
2014/05/27 Javascript
jQuery中:header选择器用法实例
2014/12/29 Javascript
EasyUI,点击开启编辑框,并且编辑框获得焦点的方法
2015/03/01 Javascript
纯Javascript实现ping功能的方法
2015/03/20 Javascript
jQuery中 attr() 方法使用小结
2015/05/03 Javascript
浏览器中url存储的JavaScript实现
2015/07/07 Javascript
jquery实现Li滚动时滚动条自动添加样式的方法
2015/08/10 Javascript
JS+CSS实现六级网站导航主菜单效果
2015/09/28 Javascript
谈一谈js中的执行环境及作用域
2016/03/30 Javascript
jQuery实现选项联动轮播效果【附实例】
2016/04/19 Javascript
解决浏览器会自动填充密码的问题
2017/04/28 Javascript
Vue.js中数据绑定的语法教程
2017/06/02 Javascript
jQuery访问浏览器本地存储cookie、localStorage和sessionStorage的基本用法
2017/10/20 jQuery
浅谈FastClick 填坑及源码解析
2018/03/02 Javascript
解决vue组件销毁之后计时器继续执行的问题
2020/07/21 Javascript
[05:22]DOTA2 2015国际邀请赛中国区预选赛首日TOP10
2015/05/26 DOTA
详解python脚本自动生成需要文件实例代码
2017/02/04 Python
python非递归全排列实现方法
2017/04/10 Python
Numpy数组的保存与读取方法
2018/04/04 Python
基于数据归一化以及Python实现方式
2018/07/11 Python
python爬虫 模拟登录人人网过程解析
2019/07/31 Python
TensorFlow获取加载模型中的全部张量名称代码
2020/02/11 Python
Tensorflow与Keras自适应使用显存方式
2020/06/22 Python
10种CSS3实现的loading动画,挑一个走吧?
2020/11/16 HTML / CSS
英国排名第一的冲浪店:Ann’s Cottage
2020/06/21 全球购物
初始化了一个没有run()方法的线程类,是否会出错?
2014/03/27 面试题
食堂个人先进事迹
2014/01/22 职场文书
公司授权委托书样本
2014/09/15 职场文书
十佳少年事迹材料
2014/12/25 职场文书
长城英文导游词
2015/01/30 职场文书
音乐教师个人总结
2015/02/06 职场文书