Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python版微信红包分配算法
May 04 Python
python库lxml在linux和WIN系统下的安装
Jun 24 Python
[原创]Python入门教程1. 基本运算【四则运算、变量、math模块等】
Oct 28 Python
python调用c++传递数组的实例
Feb 13 Python
2019 Python最新面试题及答案16道题
Apr 11 Python
Python2和Python3的共存和切换使用
Apr 12 Python
python读写csv文件并增加行列的实例代码
Aug 01 Python
python 使用while写猜年龄小游戏过程解析
Oct 07 Python
python__name__原理及用法详解
Nov 02 Python
利用Pytorch实现简单的线性回归算法
Jan 15 Python
Matplotlib.pyplot 三维绘图的实现示例
Jul 28 Python
使用python画出逻辑斯蒂映射(logistic map)中的分叉图案例
Dec 11 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
DOTA2【瓜皮时刻】Vol.91 RTZ山史最惨“矿难”
2021/03/05 DOTA
《PHP边学边教》(01.开篇――准备工作)
2006/12/13 PHP
PHP 文件缓存的性能测试
2010/04/25 PHP
PHP针对JSON操作实例分析
2015/01/12 PHP
php实现简单文件下载的方法
2015/01/30 PHP
PHP的Yii框架中使用数据库的配置和SQL操作实例教程
2016/03/17 PHP
PHP cookie与session会话基本用法实例分析
2019/11/18 PHP
JavaScript判断密码强度(自写代码)
2013/09/06 Javascript
javascript实现可拖动变色并关闭层窗口实例
2015/05/15 Javascript
jQuery+json实现的简易Ajax调用实例
2015/12/14 Javascript
js创建jsonArray传输至后台及后台全面解析
2016/04/11 Javascript
jQuery实现订单提交页发送短信功能前端处理方法
2016/07/04 Javascript
ajax的分页查询示例(不刷新页面)
2017/01/11 Javascript
JavaScript实现图像模糊化的方法实例
2017/01/15 Javascript
从零开始学习Node.js系列教程四:多页面实现数学运算的client端和server端示例
2017/04/13 Javascript
js绑定事件和解绑事件
2017/04/27 Javascript
vue写一个组件
2018/04/09 Javascript
Vue组件中的data必须是一个function的原因浅析
2018/09/03 Javascript
JS为什么说async/await是generator的语法糖详解
2019/07/11 Javascript
JS数组扁平化、去重、排序操作实例详解
2020/02/24 Javascript
JavaScript冒泡算法原理与实现方法深入理解
2020/06/04 Javascript
使用python调用zxing库生成二维码图片详解
2017/01/10 Python
对Tensorflow中权值和feature map的可视化详解
2018/06/14 Python
Python logging模块写入中文出现乱码
2020/05/21 Python
CSS3的resize属性使用初探
2015/09/27 HTML / CSS
html5 canvas绘制网络字体的常用方法
2019/08/26 HTML / CSS
阿迪达斯中国官网:Adidas中国
2020/12/14 全球购物
在DELPHI中调用存储过程和使用内嵌SQL哪种方式更好
2016/11/22 面试题
青年教师典范事迹材料
2014/01/31 职场文书
军神教学反思
2014/02/04 职场文书
销售2014年度工作总结
2014/12/08 职场文书
2014年办公室人员工作总结
2014/12/09 职场文书
前台接待岗位职责
2015/02/03 职场文书
一文搞懂php的垃圾回收机制
2021/06/18 PHP
python调用ffmpeg命令行工具便捷操作视频示例实现过程
2021/11/01 Python
mysqldump进行数据备份详解
2022/07/15 MySQL