Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python实现的登陆Discuz!论坛通用代码分享
Jul 11 Python
Python-基础-入门 简介
Aug 09 Python
python3之微信文章爬虫实例讲解
Jul 12 Python
python中 chr unichr ord函数的实例详解
Aug 06 Python
在VS Code上搭建Python开发环境的方法
Apr 06 Python
Python清空文件并替换内容的实例
Oct 22 Python
在Pycharm中项目解释器与环境变量的设置方法
Oct 29 Python
解决python3.5 正常安装 却不能直接使用Tkinter包的问题
Feb 22 Python
Python识别快递条形码及Tesseract-OCR使用详解
Jul 15 Python
PyCharm专业最新版2019.1安装步骤(含激活码)
Oct 09 Python
python中append函数用法讲解
Dec 11 Python
关于多种方式完美解决Python pip命令下载第三方库的问题
Dec 21 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
Zend framework处理一个http请求的流程分析
2010/02/08 PHP
PHP MemCached 高级缓存应用代码
2010/08/05 PHP
PHP几个数学计算的内部函数学习整理
2011/08/06 PHP
基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)
2014/01/31 PHP
ThinkPHP的L方法使用简介
2014/06/18 PHP
使用ThinkPHP+Uploadify实现图片上传功能
2014/06/26 PHP
老生常谈ThinkPHP中的行为扩展和插件(推荐)
2017/05/05 PHP
基于PHP常用文件函数和目录函数整理
2017/08/17 PHP
php探针使用原理和技巧讲解
2019/09/17 PHP
javascript 节点排序 2
2011/01/31 Javascript
Jquery 的扩展方法总结
2011/10/01 Javascript
超精准的javascript验证身份证号的具体实现方法
2015/11/18 Javascript
使用three.js 画渐变的直线
2016/06/05 Javascript
jQuery第一次运行页面默认触发点击事件的实例
2018/01/10 jQuery
JS实现水平遍历和嵌套递归操作示例
2019/08/15 Javascript
一篇文章带你浅入webpack的DLL优化打包
2020/02/20 Javascript
小程序瀑布流组件实现翻页与图片懒加载
2020/05/19 Javascript
[49:27]2018DOTA2亚洲邀请赛 4.4 淘汰赛 TNC vs VG 第一场
2018/04/05 DOTA
python关键字and和or用法实例
2015/05/28 Python
python中的计时器timeit的使用方法
2017/10/20 Python
python中break、continue 、exit() 、pass终止循环的区别详解
2019/07/08 Python
python 自定义装饰器实例详解
2019/07/20 Python
Jupyter notebook无法导入第三方模块的解决方式
2020/04/15 Python
python如何实现递归转非递归
2021/02/25 Python
css3动画鼠标放上图片逐渐变大鼠标离开图片逐渐缩小效果
2021/01/27 HTML / CSS
canvas像素点操作之视频绿幕抠图
2018/09/11 HTML / CSS
MaBelle玛贝尔香港官网:香港钻饰连锁店
2019/09/09 全球购物
应用化学专业本科生求职信
2013/09/29 职场文书
创意活动策划书
2014/01/15 职场文书
小学生检讨书大全
2014/02/06 职场文书
大一学生职业生涯规划
2014/03/11 职场文书
亲子活动总结
2014/04/26 职场文书
学习雷锋精神演讲稿
2014/05/10 职场文书
2014法院四风问题对照检查材料思想汇报
2014/10/04 职场文书
幼儿园小班个人总结
2015/02/12 职场文书
详解TS数字分隔符和更严格的类属性检查
2021/05/06 Javascript