记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python的词法分析与语法分析
May 18 Python
python获取android设备的GPS信息脚本分享
Mar 06 Python
Python的ORM框架中SQLAlchemy库的查询操作的教程
Apr 25 Python
Python之reload流程实例代码解析
Jan 29 Python
解决Python 爬虫URL中存在中文或特殊符号无法请求的问题
May 11 Python
Python删除n行后的其他行方法
Jan 28 Python
python函数enumerate,operator和Counter使用技巧实例小结
Feb 22 Python
python右对齐的实例方法
Jul 05 Python
python用Tkinter做自己的中文代码编辑器
Sep 07 Python
selenium判断元素是否存在的两种方法小结
Dec 07 Python
python 实现的车牌识别项目
Jan 25 Python
Python绘制散点图之可视化神器pyecharts
Jul 07 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
生成ubuntu自动切换壁纸xml文件的php代码
2010/07/17 PHP
PHP生成短网址的3种方法代码实例
2014/07/08 PHP
PHP中preg_match正则匹配中的/u、/i、/s含义
2015/04/17 PHP
PHP foreach遍历多维数组实现方式
2016/11/16 PHP
PHP CURL采集百度搜寻结果图片不显示问题的解决方法
2017/02/03 PHP
extjs grid取到数据而不显示的解决
2008/12/29 Javascript
ASP中Sub和Function的区别说明
2020/08/30 Javascript
jquery remove方法应用详解
2012/11/22 Javascript
GridView中获取被点击行中的DropDownList和TextBox中的值
2013/07/18 Javascript
Jquery判断$("#id")获取的对象是否存在的方法
2013/09/25 Javascript
jQuery中ajax和post处理json的不同示例对比
2014/11/02 Javascript
Javascript实现的简单右键菜单类
2015/09/23 Javascript
jQuery命名空间与闭包用法示例
2017/01/12 Javascript
jQuery表格(Table)基本操作实例分析
2017/03/10 Javascript
jquery.flot.js简单绘制折线图用法示例
2017/03/13 Javascript
vue2.0嵌套路由实现豆瓣电影分页功能(附demo)
2017/03/13 Javascript
d3.js入门教程之数据绑定详解
2017/04/28 Javascript
利用JS做网页特效_大图轮播(实例讲解)
2017/08/09 Javascript
基于Vue单文件组件详解
2017/09/15 Javascript
js面试题之异步问题的深入理解
2020/09/20 Javascript
[00:33]2016完美“圣”典风云人物:Sccc宣传片
2016/12/03 DOTA
[09:13]DOTA2-DPC中国联赛 正赛 Ehome vs Magma 选手采访 1月19日
2021/03/11 DOTA
跟老齐学Python之编写类之二方法
2014/10/11 Python
Python中函数参数设置及使用的学习笔记
2016/05/03 Python
Django实战之用户认证(初始配置)
2018/07/16 Python
Django页面数据的缓存与使用的具体方法
2019/04/23 Python
django 使用全局搜索功能的实例详解
2019/07/18 Python
matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)
2019/08/06 Python
python3访问字典里的值实例方法
2020/11/18 Python
针对HTML5的Web Worker使用攻略
2015/07/12 HTML / CSS
护士岗位职责
2014/02/16 职场文书
教育专业毕业生推荐信
2014/07/10 职场文书
12.4全国法制宣传日活动总结
2014/11/01 职场文书
2015年团委副书记工作总结
2015/07/23 职场文书
解决Tkinter中button按钮未按却主动执行command函数的问题
2021/05/23 Python
Java 泛型详解(超详细的java泛型方法解析)
2021/07/02 Java/Android