Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
探寻python多线程ctrl+c退出问题解决方案
Oct 23 Python
python实现在windows下操作word的方法
Apr 28 Python
Python自动化测试ConfigParser模块读写配置文件
Aug 15 Python
Python调用C++程序的方法详解
Jan 24 Python
Python 由字符串函数名得到对应的函数(实例讲解)
Aug 10 Python
python机器学习之决策树分类详解
Dec 20 Python
python实现简易版计算器
Jun 22 Python
PyCharm安装第三方库如Requests的图文教程
May 18 Python
python3解析库lxml的安装与基本使用
Jun 27 Python
利用Python实现某OA系统的自动定位功能
May 27 Python
Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)
Jun 14 Python
如何用 Python 制作一个迷宫游戏
Feb 25 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
php 删除指定文件夹的实例讲解
2017/07/25 PHP
PHP 使用位运算实现四则运算的代码
2021/03/09 PHP
jquery入门—选择器实现隔行变色实例代码
2013/01/04 Javascript
Flexigrid在IE下不显示数据的处理的解决方法
2013/10/24 Javascript
javascript回车完美实现tab切换功能
2014/03/13 Javascript
基于jQuery实现的文字按钮表单特效整理
2014/12/07 Javascript
JS显示下拉列表框内全部元素的方法
2015/03/31 Javascript
angularjs学习笔记之双向数据绑定
2015/09/26 Javascript
关于webuploader插件使用过程遇到的小问题
2016/11/07 Javascript
jQuery实现的简单在线计算器功能
2017/05/11 jQuery
JavaScript数组push方法使用注意事项
2017/10/30 Javascript
webpack-dev-server远程访问配置方法
2018/02/22 Javascript
基于vue2.0实现仿百度前端分页效果附实现代码
2018/10/30 Javascript
微信小程序购物车、父子组件传值及calc的注意事项总结
2018/11/14 Javascript
vue实现路由懒加载的3种方法示例
2020/09/01 Javascript
react ant Design手动设置表单的值操作
2020/10/31 Javascript
[08:47]DOTA2每周TOP10 精彩击杀集锦vol.6
2014/06/25 DOTA
python网络编程之TCP通信实例和socketserver框架使用例子
2014/04/25 Python
对pandas的层次索引与取值的新方法详解
2018/11/06 Python
在numpy矩阵中令小于0的元素改为0的实例
2019/01/26 Python
python f-string式格式化听语音流程讲解
2019/06/18 Python
Gauss-Seidel迭代算法的Python实现详解
2019/06/29 Python
Python的互斥锁与信号量详解
2019/09/12 Python
Python:slice与indices的用法
2019/11/25 Python
HTML5+CSS3实现拖放(Drag and Drop)示例
2014/07/07 HTML / CSS
英国图书音像网站:Hive.co.uk(图书、电子书、DVD、蓝光、音乐CD等)
2017/10/16 全球购物
德国受欢迎的旅游和休闲网站:lastminute.de
2019/09/23 全球购物
自然健康的概念:Natural Healthy Concepts
2020/01/26 全球购物
C++面试题:关于链表和指针
2013/06/05 面试题
安全生产汇报材料
2014/02/17 职场文书
文明市民先进事迹
2014/05/15 职场文书
单位在职证明书
2014/09/11 职场文书
法定代表人授权委托书
2014/09/19 职场文书
疾病证明书
2015/06/19 职场文书
利用Python将list列表写入文件并读取的方法汇总
2022/03/25 Python
多台电脑共享文件怎么设置?多台电脑共享文件操作教程
2022/04/08 数码科技