编程 Python

记录一下scrapy中settings的一些配置小结

Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置，分享给大家，具体如下：

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'

# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}

# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率，当爬取目标基数很大时，舍弃部分数据不影响大局，提高效率
# RETRY_ENABLED = False
# 请求下载超时时间，默认180秒
DOWNLOAD_TIMEOUT = 10

# 1：设置去重组件，使用的是scrapy_redis的去重组件，而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2：设置调度器，使用scrapy——redis重写的调度器，
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3：可以实现断点爬取=jondir，（请求的记录不会丢失，会存储在redis数据库中，
# 不会清除redis的队列，下次直接从redis的队列中爬取）
SCHEDULER_PERSIST = True
# 4：设置任务队列的模式（三选一）：
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式（
# 有自己的优先级）默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式，任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式：任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时， 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

记录一下scrapy中settings的一些配置小结

- Author -

Davide~苏

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的词法分析与语法分析

May 18 Python

python获取android设备的GPS信息脚本分享

Mar 06 Python

Python的ORM框架中SQLAlchemy库的查询操作的教程

Apr 25 Python

Python之reload流程实例代码解析

Jan 29 Python

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

May 11 Python

Python删除n行后的其他行方法

Jan 28 Python

python函数enumerate,operator和Counter使用技巧实例小结

Feb 22 Python

python右对齐的实例方法

Jul 05 Python

python用Tkinter做自己的中文代码编辑器

Sep 07 Python

selenium判断元素是否存在的两种方法小结

Dec 07 Python

python 实现的车牌识别项目

Jan 25 Python

Python绘制散点图之可视化神器pyecharts

Jul 07 Python

使用scrapy ImagesPipeline爬取图片资源的示例代码

Sep 28 #Python

详解scrapy内置中间件的顺序

Sep 28 #Python

Python爬虫代理池搭建的方法步骤

Sep 28 #Python

浅析python 通⽤爬⾍和聚焦爬⾍

Sep 28 #Python

Scrapy 配置动态代理IP的实现

Sep 28 #Python

Scrapy中如何向Spider传入参数的方法实现

Sep 28 #Python

详解向scrapy中的spider传递参数的几种方法(2种)

Sep 28 #Python

You might like

生成ubuntu自动切换壁纸xml文件的php代码

2010/07/17 PHP

PHP生成短网址的3种方法代码实例

2014/07/08 PHP

PHP中preg_match正则匹配中的/u、/i、/s含义

2015/04/17 PHP

PHP foreach遍历多维数组实现方式

2016/11/16 PHP

PHP CURL采集百度搜寻结果图片不显示问题的解决方法

2017/02/03 PHP

extjs grid取到数据而不显示的解决

2008/12/29 Javascript

ASP中Sub和Function的区别说明

2020/08/30 Javascript

jquery remove方法应用详解

2012/11/22 Javascript

GridView中获取被点击行中的DropDownList和TextBox中的值

2013/07/18 Javascript

Jquery判断$("#id")获取的对象是否存在的方法

2013/09/25 Javascript

jQuery中ajax和post处理json的不同示例对比

2014/11/02 Javascript

Javascript实现的简单右键菜单类

2015/09/23 Javascript

jQuery命名空间与闭包用法示例

2017/01/12 Javascript

jQuery表格(Table)基本操作实例分析

2017/03/10 Javascript

jquery.flot.js简单绘制折线图用法示例

2017/03/13 Javascript

vue2.0嵌套路由实现豆瓣电影分页功能(附demo)

2017/03/13 Javascript

d3.js入门教程之数据绑定详解

2017/04/28 Javascript

利用JS做网页特效_大图轮播(实例讲解)

2017/08/09 Javascript

基于Vue单文件组件详解

2017/09/15 Javascript

js面试题之异步问题的深入理解

2020/09/20 Javascript

[00:33]2016完美“圣”典风云人物：Sccc宣传片

2016/12/03 DOTA

[09:13]DOTA2-DPC中国联赛正赛 Ehome vs Magma 选手采访 1月19日

2021/03/11 DOTA

跟老齐学Python之编写类之二方法

2014/10/11 Python

Python中函数参数设置及使用的学习笔记

2016/05/03 Python

Django实战之用户认证（初始配置）

2018/07/16 Python

Django页面数据的缓存与使用的具体方法

2019/04/23 Python

django 使用全局搜索功能的实例详解

2019/07/18 Python

matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)

2019/08/06 Python

python3访问字典里的值实例方法

2020/11/18 Python

针对HTML5的Web Worker使用攻略

2015/07/12 HTML / CSS

护士岗位职责

2014/02/16 职场文书

教育专业毕业生推荐信

2014/07/10 职场文书

12.4全国法制宣传日活动总结

2014/11/01 职场文书

2015年团委副书记工作总结

2015/07/23 职场文书

解决Tkinter中button按钮未按却主动执行command函数的问题

2021/05/23 Python

Java 泛型详解(超详细的java泛型方法解析)

2021/07/02 Java/Android