记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
用Python抢过年的火车票附源码
Dec 07 Python
python selenium执行所有测试用例并生成报告的方法
Feb 13 Python
python openpyxl使用方法详解
Jul 18 Python
python实现12306登录并保存cookie的方法示例
Dec 17 Python
Python之变量类型和if判断方式
May 05 Python
matplotlib基础绘图命令之imshow的使用
Aug 13 Python
Python3获取cookie常用三种方案
Oct 05 Python
Python+MySQL随机试卷及答案生成程序的示例代码
Feb 01 Python
手把手教你配置JupyterLab 环境的实现
Feb 02 Python
pycharm无法导入lxml的解决办法
Mar 31 Python
python3 hdf5文件 遍历代码
May 19 Python
Django中session进行权限管理的使用
Jul 09 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP最常用的ini函数分析 针对PHP.ini配置文件
2010/04/22 PHP
通过JAVAScript实现页面自适应
2007/01/19 Javascript
jquery.post用法示例代码
2014/01/03 Javascript
Javascript Objects详解
2014/09/04 Javascript
Javascript使用post方法提交数据实例
2015/08/03 Javascript
jQuery实现单击弹出Div层窗口效果(可关闭可拖动)
2015/09/19 Javascript
js倒计时抢购实例
2015/12/20 Javascript
js实现精确到秒的日期选择器完整实例
2016/04/30 Javascript
jQuery根据表单name获取值的方法
2016/05/24 Javascript
js 提交form表单和设置form表单请求路径的实现方法
2016/10/25 Javascript
javascript另类方法实现htmlencode()与htmldecode()函数实例分析
2016/11/17 Javascript
Bootstrap CSS组件之按钮下拉菜单
2016/12/17 Javascript
jQuery简单判断值是否存在于数组中的方法示例
2018/04/17 jQuery
基于vue-ssr的静态网站生成器VuePress 初体验
2018/04/17 Javascript
Node.Js生成比特币地址代码解析
2018/04/21 Javascript
Vue resource三种请求格式和万能测试地址
2018/09/26 Javascript
koa源码中promise的解读
2018/11/13 Javascript
vue 插件的方法代码详解
2019/06/06 Javascript
js HTML DOM EventListener功能与用法实例分析
2020/04/27 Javascript
JavaScript中EventBus实现对象之间通信
2020/10/18 Javascript
[55:04]海涛DOTA2死魂复燃6.82版本介绍
2014/09/28 DOTA
[26:40]DOTA2上海特级锦标赛A组资格赛#1 Secret VS MVP.Phx第一局
2016/02/25 DOTA
python读写ini配置文件方法实例分析
2015/06/30 Python
Request的中断和ErrorHandler实例解析
2018/02/12 Python
Python开发之Nginx+uWSGI+virtualenv多项目部署教程
2019/05/13 Python
itchat-python搭建微信机器人(附示例)
2019/06/11 Python
Python 利用Entrez库筛选下载PubMed文献摘要的示例
2020/11/24 Python
美国男士西装打折店:Jos. A. Bank
2017/11/13 全球购物
Europcar美国/加拿大:预订汽车或卡车租赁服务
2018/11/13 全球购物
Viking Direct爱尔兰:办公用品和家具
2019/11/21 全球购物
《三亚落日》教学反思
2014/04/26 职场文书
2014公司党员自我评价范文
2014/09/11 职场文书
2015年教师节感言
2015/08/03 职场文书
python制作图形界面的2048游戏, 基于tkinter
2021/04/06 Python
python opencv常用图形绘制方法(线段、矩形、圆形、椭圆、文本)
2021/04/12 Python
JS前端使用canvas实现扩展物体类和事件派发
2022/08/05 Javascript