Python使用scrapy采集数据过程中放回下载过大页面的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下:

添加以下代码到settings.py,myproject为你的项目名称

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

MAX_RESPONSE_SIZE = 1048576 # 1Mb

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class LimitSizePageGetter(ScrapyHTTPPageGetter):

    def handleHeader(self, key, value):

        ScrapyHTTPPageGetter.handleHeader(self, key, value)

        if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:

            self.connectionLost('oversized')

class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python中ConfigParse模块的用法
Sep 29 Python
python获取文件版本信息、公司名和产品名的方法
Oct 05 Python
python中redis的安装和使用
Dec 04 Python
Python编程之string相关操作实例详解
Jul 22 Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 Python
tensorflow学习教程之文本分类详析
Aug 07 Python
python使用matplotlib库生成随机漫步图
Aug 27 Python
Python实现将多个空格换为一个空格.md的方法
Dec 20 Python
Django 对IP访问频率进行限制的例子
Aug 30 Python
如何基于python测量代码运行时间
Dec 25 Python
Python爬虫如何破解JS加密的Cookie
Nov 19 Python
Django集成MongoDB实现过程解析
Dec 01 Python
在Python中使用M2Crypto模块实现AES加密的教程
Apr 08 #Python
Python使用scrapy采集时伪装成HTTP/1.1的方法
Apr 08 #Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
You might like
php模块memcache和memcached区别分析
2011/06/14 PHP
解析二进制流接口应用实例 pack、unpack、ord 函数使用方法
2013/06/18 PHP
标准版Eclipse搭建PHP环境的详细步骤
2015/11/18 PHP
ScrollDown的基本操作示例
2013/06/09 Javascript
node.js中的fs.fchown方法使用说明
2014/12/16 Javascript
了不起的node.js读书笔记之node.js中的特性
2014/12/22 Javascript
Jquery 实现图片轮换
2015/01/28 Javascript
jQuery中extend函数的实现原理详解
2015/02/03 Javascript
推荐阅读的js快速判断IE浏览器(兼容IE10与IE11)
2015/12/13 Javascript
JQuery的常用选择器、过滤器、方法全面介绍
2016/05/25 Javascript
详解Angular开发中的登陆与身份验证
2016/07/27 Javascript
教你JS中的运算符乘方、开方及变量格式转换
2016/08/09 Javascript
javascript淘宝主图放大镜功能
2016/10/20 Javascript
基于zepto.js实现登录界面
2017/10/09 Javascript
基于Two.js实现星球环绕动画效果的示例
2017/11/06 Javascript
vue 动态改变静态图片以及请求网络图片的实现方法
2018/02/07 Javascript
Python类属性与实例属性用法分析
2015/05/09 Python
总结Python中逻辑运算符的使用
2015/05/13 Python
python实现同一局域网下传输图片
2020/03/20 Python
pandas的resample重采样的使用
2020/04/24 Python
python实现银行账户系统
2021/02/22 Python
一加手机美国官方网站:OnePlus美国
2019/09/19 全球购物
Pandora德国官网:购买潘多拉手链、戒指、项链和耳环
2020/02/20 全球购物
腾讯技术类校园招聘笔试试题
2014/05/06 面试题
办公室保洁员岗位职责
2013/12/02 职场文书
廉政教育心得体会
2014/01/01 职场文书
青年文明号事迹材料
2014/01/18 职场文书
运动会广播稿500字
2014/01/28 职场文书
运动会解说词100字
2014/01/31 职场文书
个人自我剖析材料
2014/02/07 职场文书
小班幼儿评语大全
2014/04/30 职场文书
军训阅兵新闻稿
2015/07/17 职场文书
师德师风培训感言
2015/08/03 职场文书
员工升职自我评价
2019/03/26 职场文书
2019年XX公司的晨会制度及流程!
2019/07/23 职场文书
用python自动生成日历
2021/04/24 Python