Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python的ORM框架SQLAlchemy入门教程
Apr 28 Python
Python中使用tarfile压缩、解压tar归档文件示例
Apr 05 Python
python实现将html表格转换成CSV文件的方法
Jun 28 Python
12步入门Python中的decorator装饰器使用方法
Jun 20 Python
Python模拟用户登录验证
Sep 11 Python
Python 找到列表中满足某些条件的元素方法
Jun 26 Python
PyQt5实现从主窗口打开子窗口的方法
Jun 19 Python
Python实现Keras搭建神经网络训练分类模型教程
Jun 12 Python
Python 如何创建一个线程池
Jul 28 Python
详解python模块pychartdir安装及导入问题
Oct 22 Python
Python基于Webhook实现github自动化部署
Nov 28 Python
Python对excel的基本操作方法
Feb 18 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
php字符串截取问题
2006/11/28 PHP
windows xp下安装pear
2006/12/02 PHP
PHP insert语法详解
2008/06/07 PHP
Thinkphp搜索时首页分页和搜索页保持条件分页的方法
2014/12/05 PHP
PHP校验15位和18位身份证号的类封装
2018/11/07 PHP
PHP超低内存遍历目录文件和读取超大文件的方法
2019/05/01 PHP
php实现简单的守护进程创建、开启与关闭操作
2019/08/13 PHP
PHP执行普通shell命令流程解析
2020/08/24 PHP
收集的网上用的ajax之chat.js文件
2007/04/08 Javascript
如何获取select下拉框的值(option没有及有value属性)
2013/11/08 Javascript
js代码实现的加入收藏效果并兼容主流浏览器
2014/06/23 Javascript
JS判断网页广告是否被浏览器拦截过滤的代码
2015/04/05 Javascript
JavaScript中的pow()方法使用详解
2015/06/15 Javascript
使用JS读取XML文件的方法
2016/11/25 Javascript
获取select的value、text值的简单示例(jquery与javascript)
2016/12/07 Javascript
jQuery ajax请求struts action实现异步刷新
2017/04/19 jQuery
详解vue-cli中配置sass
2017/06/21 Javascript
详解基于Koa2开发微信二维码扫码支付相关流程
2018/05/16 Javascript
详解用场景去理解函数柯里化(入门篇)
2019/04/11 Javascript
详解mpvue中使用vant时需要注意的onChange事件的坑
2019/05/16 Javascript
layui button 按钮弹出提示窗口,确定才进行的方法
2019/09/06 Javascript
Vue中Table组件行内右键菜单实现方法(基于 vue + AntDesign)
2019/11/21 Javascript
JS实现躲避粒子小游戏
2020/06/18 Javascript
JavaScript 声明私有变量的两种方式
2021/02/05 Javascript
python之pyqt5通过按钮改变Label的背景颜色方法
2019/06/13 Python
CSS3实现王者匹配时的粒子动画效果
2019/04/12 HTML / CSS
纯CSS3+DIV实现小三角形边框效果的示例代码
2020/08/03 HTML / CSS
浅谈HTML5新增及移除的元素
2016/06/27 HTML / CSS
皇马官方商城:Real Madrid Store
2016/09/02 全球购物
木马的传播途径主要有哪些
2016/04/08 面试题
什么是反射
2012/03/17 面试题
办公室前台岗位职责范本
2013/12/10 职场文书
教师批评与自我批评范文
2014/10/15 职场文书
小学语文教学反思范文
2016/03/03 职场文书
共青团优秀团员申请书(范文)
2019/08/15 职场文书
2019年图书室自查报告范本
2019/10/12 职场文书