记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中文竖排显示的方法
Jul 28 Python
玩转python爬虫之爬取糗事百科段子
Feb 17 Python
实例解析Python中的__new__特殊方法
Jun 02 Python
python中的break、continue、exit()、pass全面解析
Aug 05 Python
python编程之requests在网络请求中添加cookies参数方法详解
Oct 25 Python
Python批量提取PDF文件中文本的脚本
Mar 14 Python
python机器学习之随机森林(七)
Mar 26 Python
Python 创建新文件时避免覆盖已有的同名文件的解决方法
Nov 16 Python
kali中python版本的切换方法
Jul 11 Python
python Tkinter模块使用方法详解
Apr 07 Python
Python 匹配文本并在其上一行追加文本
May 11 Python
Python实现双向链表基本操作
May 25 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
目录,文件操作详谈―PHP
2006/11/25 PHP
Windows PHP5和Apache的安装与配置
2009/06/08 PHP
关于PHP的相似度计算函数:levenshtein的使用介绍
2013/04/15 PHP
PHP限制HTML内容中图片必须是本站的方法
2015/06/16 PHP
PHP微信开发之模板消息回复
2016/06/24 PHP
Linux平台php命令行程序处理管道数据的方法
2016/11/10 PHP
详解Yii实现分页的两种方法
2017/01/14 PHP
php实现解析xml并生成sql语句的方法
2018/02/03 PHP
Thinkphp5框架中引入Markdown编辑器操作示例
2020/06/03 PHP
js 页面输出值
2008/11/30 Javascript
jquery formValidator插件ajax验证 内容不做任何修改再离开提示错误的bug解决方法
2013/01/04 Javascript
基于JavaScript实现继承机制之原型链(prototype chaining)的详解
2013/05/07 Javascript
JSON.parse()和JSON.stringify()使用介绍
2014/06/20 Javascript
javascript实现动态改变层大小的方法
2015/05/14 Javascript
使用JavaScript和CSS实现文本隔行换色的方法
2015/11/04 Javascript
JS中对Cookie的操作详解
2016/08/05 Javascript
jQuery+HTML5实现弹出创意搜索框层
2016/12/29 Javascript
vue-cli中打包图片路径错误的解决方法
2017/10/26 Javascript
js中url对象化管理分析
2017/12/29 Javascript
[57:36]DOTA2-DPC中国联赛 正赛 SAG vs CDEC BO3 第三场 2月1日
2021/03/11 DOTA
Python中用pycurl监控http响应时间脚本分享
2015/02/02 Python
python学习必备知识汇总
2017/09/08 Python
Python爬虫实现抓取京东店铺信息及下载图片功能示例
2018/08/07 Python
使用python采集脚本之家电子书资源并自动下载到本地的实例脚本
2018/10/23 Python
Python 仅获取响应头, 不获取实体的实例
2019/08/21 Python
Python数据处理篇之Sympy系列(五)---解方程
2019/10/12 Python
Python开发之基于模板匹配的信用卡数字识别功能
2020/01/13 Python
Django 拼接两个queryset 或是两个不可以相加的对象实例
2020/03/28 Python
详解h5页面在不同ios设备上的问题总结
2019/03/01 HTML / CSS
英国手机零售商:Carphone Warehouse
2018/06/06 全球购物
汇科协同Java笔试题
2012/03/31 面试题
留学顾问岗位职责
2014/04/14 职场文书
小学生竞选班长演讲稿
2014/04/24 职场文书
检讨书范文2000字
2015/01/28 职场文书
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
2021/05/26 Python
Spring Boot 整合 Apache Dubbo的示例代码
2021/07/04 Java/Android