Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python爬虫实例_利用百度地图API批量获取城市所有的POI点
Jan 10 Python
50行Python代码实现人脸检测功能
Jan 23 Python
python中的不可变数据类型与可变数据类型详解
Sep 16 Python
对pandas数据判断是否为NaN值的方法详解
Nov 06 Python
Python 互换字典的键值对实例
Feb 12 Python
应用OpenCV和Python进行SIFT算法的实现详解
Aug 21 Python
布隆过滤器的概述及Python实现方法
Dec 08 Python
django实现将后台model对象转换成json对象并传递给前端jquery
Mar 16 Python
python线程池如何使用
May 28 Python
基于Keras中Conv1D和Conv2D的区别说明
Jun 19 Python
Python实现随机爬山算法
Jan 29 Python
Python机器学习应用之工业蒸汽数据分析篇详解
Jan 18 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
php一些公用函数的集合
2008/03/27 PHP
详解php设置session(过期、失效、有效期)
2015/11/12 PHP
PHP编写文件多服务器同步程序
2016/07/02 PHP
js正确获取元素样式详解
2009/08/07 Javascript
jquery 延迟执行实例介绍
2013/08/20 Javascript
获取非最后一列td值并将title设为该值的方法
2013/10/30 Javascript
js实现点击添加一个input节点
2014/12/05 Javascript
利用JS生成博文目录及CSS定制博客
2016/02/10 Javascript
angularjs表格ng-table使用备忘录
2016/03/09 Javascript
关于JS中二维数组的声明方法
2016/09/24 Javascript
学习vue.js计算属性
2016/12/03 Javascript
jquery实现静态搜索功能(可输入搜索文字)
2017/03/28 jQuery
AngularJS的ng-click传参的方法
2017/06/19 Javascript
js+html5实现半透明遮罩层弹框效果
2020/08/24 Javascript
jQuery DOM节点的遍历方法小结
2017/08/15 jQuery
浅析JavaScript中的特殊数据类型
2017/12/15 Javascript
jQuery实现的上传图片本地预览效果简单示例
2018/03/29 jQuery
在vue中更换字体,本地存储字体非引用在线字体库的方法
2018/09/28 Javascript
微信小程序前端promise封装代码实例
2019/08/24 Javascript
jQuery 查找元素操作实例小结
2019/10/02 jQuery
python随机数分布random测试
2018/08/27 Python
django 连接数据库 sqlite的例子
2019/08/14 Python
mac使用python识别图形验证码功能
2020/01/10 Python
Python3使用Selenium获取session和token方法详解
2021/02/16 Python
HTML5 b和i标记将被赋予真正的语义
2009/07/16 HTML / CSS
英国领先的办公用品供应商:Viking
2016/08/01 全球购物
瑞士男士时尚网上商店:Babista
2020/05/14 全球购物
文史专业毕业生自荐信
2013/11/17 职场文书
医学专业毕业生个人求职信
2013/12/25 职场文书
安全生产管理合理化建议书
2014/03/12 职场文书
大学生实习鉴定评语
2014/04/25 职场文书
邀请函范文
2015/02/02 职场文书
2015年小学开学寄语
2015/02/27 职场文书
2015年暑假生活总结
2015/07/13 职场文书
优秀党员先进事迹材料2016
2016/02/29 职场文书
你真的了解redis为什么要提供pipeline功能
2021/06/22 Redis