编程 Python

Python使用scrapy采集时伪装成HTTP/1.1的方法

Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下：

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python使用scrapy采集时伪装成HTTP/1.1的方法

- Author -

pythoner

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的ORM框架SQLAlchemy入门教程

Apr 28 Python

Python中使用tarfile压缩、解压tar归档文件示例

Apr 05 Python

python实现将html表格转换成CSV文件的方法

Jun 28 Python

12步入门Python中的decorator装饰器使用方法

Jun 20 Python

Python模拟用户登录验证

Sep 11 Python

Python 找到列表中满足某些条件的元素方法

Jun 26 Python

PyQt5实现从主窗口打开子窗口的方法

Jun 19 Python

Python实现Keras搭建神经网络训练分类模型教程

Jun 12 Python

Python 如何创建一个线程池

Jul 28 Python

详解python模块pychartdir安装及导入问题

Oct 22 Python

Python基于Webhook实现github自动化部署

Nov 28 Python

Python对excel的基本操作方法

Feb 18 Python

Python打印scrapy蜘蛛抓取树结构的方法

Apr 08 #Python

使用IPython来操作Docker容器的入门指引

Apr 08 #Python

仅用50行Python代码实现一个简单的代理服务器

Apr 08 #Python

用Python实现一个简单的能够发送带附件的邮件程序的教程

Apr 08 #Python

Python 创建子进程模块subprocess详解

Apr 08 #Python

Python中使用gzip模块压缩文件的简单教程

Apr 08 #Python

Python使用scrapy抓取网站sitemap信息的方法

Apr 08 #Python

You might like

php字符串截取问题

2006/11/28 PHP

windows xp下安装pear

2006/12/02 PHP

PHP insert语法详解

2008/06/07 PHP

Thinkphp搜索时首页分页和搜索页保持条件分页的方法

2014/12/05 PHP

PHP校验15位和18位身份证号的类封装

2018/11/07 PHP

PHP超低内存遍历目录文件和读取超大文件的方法

2019/05/01 PHP

php实现简单的守护进程创建、开启与关闭操作

2019/08/13 PHP

PHP执行普通shell命令流程解析

2020/08/24 PHP

收集的网上用的ajax之chat.js文件

2007/04/08 Javascript

如何获取select下拉框的值(option没有及有value属性)

2013/11/08 Javascript

js代码实现的加入收藏效果并兼容主流浏览器

2014/06/23 Javascript

JS判断网页广告是否被浏览器拦截过滤的代码

2015/04/05 Javascript

JavaScript中的pow()方法使用详解

2015/06/15 Javascript

使用JS读取XML文件的方法

2016/11/25 Javascript

获取select的value、text值的简单示例（jquery与javascript）

2016/12/07 Javascript

jQuery ajax请求struts action实现异步刷新

2017/04/19 jQuery

详解vue-cli中配置sass

2017/06/21 Javascript

详解基于Koa2开发微信二维码扫码支付相关流程

2018/05/16 Javascript

详解用场景去理解函数柯里化(入门篇)

2019/04/11 Javascript

详解mpvue中使用vant时需要注意的onChange事件的坑

2019/05/16 Javascript

layui button 按钮弹出提示窗口,确定才进行的方法

2019/09/06 Javascript

Vue中Table组件行内右键菜单实现方法(基于 vue + AntDesign)

2019/11/21 Javascript

JS实现躲避粒子小游戏

2020/06/18 Javascript

JavaScript 声明私有变量的两种方式

2021/02/05 Javascript

python之pyqt5通过按钮改变Label的背景颜色方法

2019/06/13 Python

CSS3实现王者匹配时的粒子动画效果

2019/04/12 HTML / CSS

纯CSS3+DIV实现小三角形边框效果的示例代码

2020/08/03 HTML / CSS

浅谈HTML5新增及移除的元素

2016/06/27 HTML / CSS

皇马官方商城：Real Madrid Store

2016/09/02 全球购物

木马的传播途径主要有哪些

2016/04/08 面试题

什么是反射

2012/03/17 面试题

办公室前台岗位职责范本

2013/12/10 职场文书

教师批评与自我批评范文

2014/10/15 职场文书

小学语文教学反思范文

2016/03/03 职场文书

共青团优秀团员申请书（范文）

2019/08/15 职场文书

2019年图书室自查报告范本

2019/10/12 职场文书