记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中字典和JSON互转操作实例
Jan 19 Python
在Linux下调试Python代码的各种方法
Apr 17 Python
Python使用sftp实现上传和下载功能(实例代码)
Mar 14 Python
Python利用BeautifulSoup解析Html的方法示例
Jul 30 Python
python实现栅栏加解密 支持密钥加密
Mar 20 Python
pyinstaller参数介绍以及总结详解
Jul 12 Python
Django实现auth模块下的登录注册与注销功能
Oct 10 Python
nginx搭建基于python的web环境的实现步骤
Jan 03 Python
Python字符串hashlib加密模块使用案例
Mar 10 Python
python数据库开发之MongoDB安装及Python3操作MongoDB数据库详细方法与实例
Mar 18 Python
TensorFlow的reshape操作 tf.reshape的实现
Apr 19 Python
Anaconda配置各版本Pytorch的实现
Aug 07 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
用PHP连接MySQL代码的参数说明
2008/06/07 PHP
php使用ICQ网关发送手机短信
2013/10/30 PHP
PHP中使用数组指针函数操作数组示例
2014/11/19 PHP
php在数据库抽象层简单使用PDO的方法
2015/11/03 PHP
PHP封装的MSSql操作类完整实例
2016/05/26 PHP
PHP中header函数的用法及其注意事项详解
2016/06/13 PHP
PHP获取访问设备信息的方法示例
2019/02/20 PHP
Laravel 实现关系模型取出需要的字段
2019/10/10 PHP
JavaScript在IE中“意外地调用了方法或属性访问”
2008/11/19 Javascript
extjs DataReader、JsonReader、XmlReader的构造方法
2009/11/07 Javascript
javascript 文章截取部分无损html显示实现代码
2010/05/04 Javascript
JQuery获取当前屏幕的高度宽度的实现代码
2011/07/12 Javascript
自己写了一个展开和收起的多更能型的js效果
2013/03/05 Javascript
javascript解析json数据的3种方式
2014/05/08 Javascript
利用jQuery及AJAX技术定时更新GridView的某一列数据
2015/12/04 Javascript
ES6中箭头函数的定义与调用方式详解
2017/06/02 Javascript
js 事件的传播机制(实例讲解)
2017/07/20 Javascript
使用jquery-easyui的布局layout写后台管理页面的代码详解
2019/06/19 jQuery
微信小程序 scroll-view 实现锚点跳转功能
2019/12/12 Javascript
在vue中嵌入外部网站的实现
2020/11/13 Javascript
Element-ui 自带的两种远程搜索(模糊查询)用法讲解
2021/01/29 Javascript
python使用正则表达式检测密码强度源码分享
2014/06/11 Python
python中pass语句用法实例分析
2015/04/30 Python
python如何求解两数的最大公约数
2018/09/27 Python
python 实现调用子文件下的模块方法
2018/12/07 Python
详解python 爬取12306验证码
2019/05/10 Python
详解python和matlab的优势与区别
2019/06/28 Python
PyCharm刷新项目(文件)目录的实现
2020/02/14 Python
如何在django中运行scrapy框架
2020/04/22 Python
如何利用python web框架做文件流下载的实现示例
2020/06/02 Python
解决python打开https出现certificate verify failed的问题
2020/09/03 Python
基于 HTML5 WebGL 实现的垃圾分类系统
2019/10/08 HTML / CSS
很酷的小工具和电子产品商城:GearBest
2016/11/19 全球购物
自我鉴定写作要点
2014/01/17 职场文书
幼儿教师个人总结
2015/02/05 职场文书
领导视察通讯稿
2015/07/18 职场文书