记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python文件夹与文件的操作实现代码
Jul 13 Python
Python中正则表达式的用法实例汇总
Aug 18 Python
Python实现求两个csv文件交集的方法
Sep 06 Python
python实现简单登陆流程的方法
Apr 22 Python
python连接mongodb密码认证实例
Oct 16 Python
Python实现SQL注入检测插件实例代码
Feb 02 Python
深入解析神经网络从原理到实现
Jul 26 Python
python matplotlib折线图样式实现过程
Nov 04 Python
Python 根据数据模板创建shapefile的实现
Nov 26 Python
python爬虫开发之使用python爬虫库requests,urllib与今日头条搜索功能爬取搜索内容实例
Mar 10 Python
jupyter notebook 多行输出实例
Apr 09 Python
DataFrame.groupby()所见的各种用法详解
Jun 14 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
用PHP创建PDF中文文档
2006/10/09 PHP
PHP中的extract的作用分析
2008/04/09 PHP
PHP多线程抓取网页实现代码
2010/07/22 PHP
Laravel Eloquent分表方法并使用模型关联的实现
2019/11/25 PHP
PHP pthreads v3下同步处理synchronized用法示例
2020/02/21 PHP
php实现的证件照换底色功能示例【人像抠图/换背景图】
2020/05/29 PHP
jQuery 使用手册(四)
2009/09/23 Javascript
jQuery filter函数使用方法
2014/05/19 Javascript
jquery对象和javascript对象即DOM对象相互转换
2014/08/07 Javascript
javascript中typeof操作符和constucor属性检测
2015/02/26 Javascript
text-align:justify实现文本两端对齐 兼容IE
2015/08/19 Javascript
在JSP中如何实现MD5加密的方法
2016/11/02 Javascript
详解js中call与apply关键字的作用
2016/11/21 Javascript
ajax与json 获取数据并在前台使用简单实例
2017/01/19 Javascript
详解nodejs中exports和module.exports的区别
2017/02/17 NodeJs
jQuery实现遍历复选框的方法示例
2017/03/06 Javascript
Node.js设置CORS跨域请求中多域名白名单的方法
2017/03/28 Javascript
Angular.JS内置服务$http对数据库的增删改使用教程
2017/05/07 Javascript
angularJs的ng-class切换class
2017/06/23 Javascript
Vue2.0基于vue-cli+webpack Vuex的用法(实例讲解)
2017/09/15 Javascript
如何编写一个完整的Angular4 FormText 组件
2017/11/18 Javascript
基于mpvue搭建微信小程序项目框架的教程详解
2019/04/10 Javascript
[33:23]Secret vs Serenity 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
python 多线程实现检测服务器在线情况
2015/11/25 Python
Linux下python3.6.1环境配置教程
2018/09/26 Python
Python定时发送消息的脚本:每天跟你女朋友说晚安
2018/10/21 Python
TensorFlow 输出checkpoint 中的变量名与变量值方式
2020/02/11 Python
python实现坦克大战
2020/04/24 Python
利于python脚本编写可视化nmap和masscan的方法
2020/12/29 Python
Dune London官网:英国著名奢华鞋履品牌
2017/11/30 全球购物
新闻发布会主持词
2014/03/28 职场文书
卖房协议书样本
2014/10/30 职场文书
长城导游词
2015/01/30 职场文书
2015年度销售个人工作总结
2015/03/31 职场文书
二手房购房意向书
2015/05/09 职场文书
一条 SQL 语句执行过程
2022/03/17 MySQL