记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
深度剖析使用python抓取网页正文的源码
Jun 11 Python
Python多线程编程简单介绍
Apr 13 Python
使用Python编写提取日志中的中文的脚本的方法
Apr 30 Python
解决Pandas to_json()中文乱码,转化为json数组的问题
May 10 Python
浅谈pycharm下找不到sqlalchemy的问题
Dec 03 Python
对python内置map和six.moves.map的区别详解
Dec 19 Python
python实现AES加密解密
Mar 28 Python
Python 硬币兑换问题
Jul 29 Python
Python 调用 Windows API COM 新法
Aug 22 Python
mac 上配置Pycharm连接远程服务器并实现使用远程服务器Python解释器的方法
Mar 19 Python
Pycharm连接远程服务器并远程调试的全过程
Jun 24 Python
Python实现视频中添加音频工具详解
Dec 06 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
php 生成随机验证码图片代码
2010/02/08 PHP
php发送http请求的常用方法分析
2016/11/08 PHP
Yii框架连表查询操作示例
2019/09/06 PHP
SyntaxHighlighter语法高亮插件使用说明
2011/08/14 Javascript
js 本地预览的简单实现方法
2014/02/18 Javascript
jQuery中end()方法用法实例
2015/01/08 Javascript
jQuery中appendTo()方法用法实例
2015/01/08 Javascript
jQuery实现漂亮实用的商品图片tips提示框效果(无图片箭头+阴影)
2016/04/16 Javascript
基于js实现的限制文本框只可以输入数字
2016/12/05 Javascript
JavaScript 中使用 Generator的方法
2017/12/29 Javascript
javascript代码优化的8点总结
2018/01/29 Javascript
在vue项目中使用element-ui的Upload上传组件的示例
2018/02/08 Javascript
详解Vue调用手机相机和相册以及上传
2019/05/05 Javascript
vue 解决遍历对象显示的顺序不对问题
2019/11/07 Javascript
three.js中多线程的使用及性能测试详解
2021/01/07 Javascript
Python实现的多线程http压力测试代码
2017/02/08 Python
Python排序搜索基本算法之插入排序实例分析
2017/12/11 Python
对pandas中apply函数的用法详解
2018/04/10 Python
python 实时得到cpu和内存的使用情况方法
2018/06/11 Python
python3判断url链接是否为404的方法
2018/08/10 Python
python制作mysql数据迁移脚本
2019/01/01 Python
python实现最大子序和(分治+动态规划)
2019/07/05 Python
解决Django加载静态资源失败的问题
2019/07/28 Python
英国最出名高街品牌:Forever Unique
2018/02/24 全球购物
JD Sports芬兰:英国领先的运动鞋和运动服饰零售商
2018/11/16 全球购物
澳大利亚在线划船、露营和钓鱼商店:BCF Australia
2020/03/22 全球购物
男方父母证婚词
2014/01/12 职场文书
任命书模板
2014/06/04 职场文书
财务检查整改报告
2014/11/06 职场文书
2016年读书月活动总结范文
2016/04/06 职场文书
pytorch 中autograd.grad()函数的用法说明
2021/05/12 Python
vue-cropper插件实现图片截取上传组件封装
2021/05/27 Vue.js
MySQL 时间类型的选择
2021/06/05 MySQL
java固定大小队列的几种实现方式详解
2021/07/15 Java/Android
Mysql数据库事务的脏读幻读及不可重复读详解
2022/05/30 MySQL
Golang Web 框架Iris安装部署
2022/08/14 Python