记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
简单的通用表达式求10乘阶示例
Mar 03 Python
python中sets模块的用法实例
Sep 30 Python
横向对比分析Python解析XML的四种方式
Mar 30 Python
python3实现163邮箱SMTP发送邮件
May 22 Python
Python实现简易过滤删除数字的方法小结
Jan 09 Python
Python上下文管理器类和上下文管理器装饰器contextmanager用法实例分析
Nov 07 Python
Python操作多维数组输出和矩阵运算示例
Nov 28 Python
浅谈pytorch池化maxpool2D注意事项
Feb 18 Python
python爬虫容易学吗
Jun 02 Python
keras实现图像预处理并生成一个generator的案例
Jun 17 Python
解决python对齐错误的方法
Jul 16 Python
python简单利用字典破解zip文件口令
Sep 07 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP 数组排序方法总结 推荐收藏
2010/06/30 PHP
php图片处理:加水印、缩略图的实现(自定义函数:watermark、thumbnail)
2010/12/02 PHP
Laravel实现用户注册和登录
2015/01/23 PHP
jquery之empty()与remove()区别说明
2010/09/10 Javascript
Jquery通过Ajax访问XML数据的小例子
2013/11/18 Javascript
js实现同一个页面多个渐变效果的方法
2015/04/10 Javascript
jquery.cookie实现的客户端购物车操作实例
2015/12/24 Javascript
详解Angularjs中的依赖注入
2016/03/11 Javascript
Bootstrap按钮组件详解
2016/04/26 Javascript
深入理解JavaScript函数参数(推荐)
2016/07/26 Javascript
AngularJS  自定义指令详解及实例代码
2016/09/14 Javascript
RequireJS简易绘图程序开发
2016/10/28 Javascript
BootStrap框架中的data-[ ]自定义属性理解(推荐)
2017/02/14 Javascript
Jquery中attr与prop的区别详解
2017/05/27 jQuery
解决Jquery下拉框数据动态获取的问题
2018/01/25 jQuery
基于Bootstrap下拉框插件bootstrap-select使用方法详解
2018/08/07 Javascript
Vue+Element实现表格编辑、删除、以及新增行的最优方法
2019/05/28 Javascript
在 Vue 应用中使用 Netlify 表单功能的方法详解
2019/06/03 Javascript
Angular5整合富文本编辑器TinyMCE的方法(汉化+上传)
2020/05/26 Javascript
解决vue项目中某一页面不想引用公共组件app.vue的问题
2020/08/14 Javascript
JavaScript 闭包的使用场景
2020/09/17 Javascript
[01:32]完美世界DOTA2联赛10月29日精彩集锦
2020/10/30 DOTA
pygame实现打字游戏
2021/02/19 Python
Anaconda3+tensorflow2.0.0+PyCharm安装与环境搭建(图文)
2020/02/18 Python
python怎么判断模块安装完成
2020/06/19 Python
Django:使用filter的pk进行多值查询操作
2020/07/15 Python
Python logging日志库空间不足问题解决
2020/09/14 Python
培训心得体会
2013/12/29 职场文书
住房公积金接收函
2014/01/09 职场文书
无故旷工检讨书
2014/01/26 职场文书
2014小学植树节活动总结
2014/03/10 职场文书
2014年师德承诺书
2014/05/23 职场文书
求职信标题怎么写
2014/05/26 职场文书
数控专业毕业生求职信
2014/06/12 职场文书
教师节横幅标语
2014/10/08 职场文书
停发工资证明范本
2015/06/12 职场文书