记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python变量和字符串详解
Apr 29 Python
python2 与 python3 实现共存的方法
Jul 12 Python
python遍历小写英文字母的方法
Jan 02 Python
python简单验证码识别的实现方法
May 10 Python
python实现得到当前登录用户信息的方法
Jun 21 Python
python如何实现从视频中提取每秒图片
Oct 22 Python
python实现LRU热点缓存及原理
Oct 29 Python
三个python爬虫项目实例代码
Dec 28 Python
python批量修改文件名的示例
Sep 27 Python
python实现发送邮件
Mar 02 Python
写好Python代码的几条重要技巧
May 21 Python
解决pycharm安装scrapy DLL load failed:找不到指定的程序的问题
Jun 08 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP-FPM的配置与优化讲解
2019/03/15 PHP
javascript new后的constructor属性
2010/08/05 Javascript
屏蔽网页右键复制和ctrl+c复制的js代码
2013/01/04 Javascript
jquery序列化form表单使用ajax提交后处理返回的json数据
2014/03/03 Javascript
jQuery遍历页面所有CheckBox查看是否被选中的方法
2015/04/14 Javascript
javascript实现捕捉键盘上按下的键
2015/05/05 Javascript
javascript如何写热点图
2015/12/08 Javascript
javascript函数自动执行常用方法汇总
2016/03/28 Javascript
JavaScript6 let 新语法优势介绍
2016/07/15 Javascript
使用纯JS代码判断字符串中有多少汉字的实现方法(超简单实用)
2016/11/12 Javascript
JS函数多个参数默认值指定方法分析
2016/11/28 Javascript
微信小程序动态的加载数据实例代码
2017/04/14 Javascript
vue动态生成dom并且自动绑定事件
2017/04/19 Javascript
Bootstrap fileinput文件上传预览插件使用详解
2017/05/16 Javascript
javascript计算渐变颜色的实例
2017/09/22 Javascript
使用Vue自定义指令实现Select组件
2018/05/24 Javascript
跟老齐学Python之有容乃大的list(1)
2014/09/14 Python
两个使用Python脚本操作文件的小示例分享
2015/08/27 Python
pycharm下打开、执行并调试scrapy爬虫程序的方法
2017/11/29 Python
利用 python 对目录下的文件进行过滤删除
2017/12/27 Python
python实现公司年会抽奖程序
2019/01/22 Python
使用python远程操作linux过程解析
2019/12/04 Python
Python代码中如何读取键盘录入的值
2020/05/27 Python
canvas 基础之图像处理的使用
2020/04/10 HTML / CSS
英国最大的体育&时尚零售公司:JD Sports
2017/12/13 全球购物
Stutterheim瑞典:瑞典高级外套时装品牌
2019/06/24 全球购物
为什么group by 和order by会使查询变慢
2014/05/16 面试题
室内设计专业个人的自我评价
2013/10/19 职场文书
英语自荐信范文
2013/12/11 职场文书
小学生班会演讲稿
2014/01/09 职场文书
志愿者宣传口号
2014/06/17 职场文书
项目转让协议书
2014/10/27 职场文书
入党积极分子考察意见
2015/06/02 职场文书
会计实训总结范文
2015/08/03 职场文书
使用python将HTML转换为PDF pdfkit包(wkhtmltopdf) 的使用方法
2022/04/21 Python
Android开发 使用文件储存的方式保存QQ密码
2022/04/24 Java/Android