Python使用scrapy采集时伪装成HTTP/1.1的方法


Posted in Python onApril 08, 2015

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下:

添加下面的代码到 settings.py 文件

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件
from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class PageGetter(ScrapyHTTPPageGetter):

    def sendCommand(self, command, path):

        self.transport.write('%s %s HTTP/1.1\r\n' % (command, path))

class HTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python实现从字典中删除元素的方法
May 04 Python
Python字符串格式化
Jun 15 Python
Python如何实现守护进程的方法示例
Feb 08 Python
在centos7中分布式部署pyspider
May 03 Python
python 计算两个日期相差多少个月实例代码
May 24 Python
python 3利用Dlib 19.7实现摄像头人脸检测特征点标定
Feb 26 Python
Python3.5.3下配置opencv3.2.0的操作方法
Apr 02 Python
将tensorflow的ckpt模型存储为npy的实例
Jul 09 Python
使用 Python 合并多个格式一致的 Excel 文件(推荐)
Dec 09 Python
解决Python在导入文件时的FileNotFoundError问题
Apr 10 Python
python怎么提高计算速度
Jun 11 Python
Python集合set()使用的方法详解
Mar 18 Python
Python打印scrapy蜘蛛抓取树结构的方法
Apr 08 #Python
使用IPython来操作Docker容器的入门指引
Apr 08 #Python
仅用50行Python代码实现一个简单的代理服务器
Apr 08 #Python
用Python实现一个简单的能够发送带附件的邮件程序的教程
Apr 08 #Python
Python 创建子进程模块subprocess详解
Apr 08 #Python
Python中使用gzip模块压缩文件的简单教程
Apr 08 #Python
Python使用scrapy抓取网站sitemap信息的方法
Apr 08 #Python
You might like
PHP 5.3.1 安装包 VC9 VC6不同版本的区别是什么
2010/07/04 PHP
php iconv() : Detected an illegal character in input string
2010/12/05 PHP
php中导出数据到excel时数字变为科学计数的解决方法
2013/02/03 PHP
一个完整的php文件上传类实例讲解
2015/10/27 PHP
PHP调试的强悍利器之PHPDBG
2016/02/22 PHP
IE和Firefox的Javascript兼容性总结[推荐收藏]
2011/10/19 Javascript
Javascript创建自定义对象 创建Object实例添加属性和方法
2012/06/04 Javascript
JS或jQuery获取ASP.NET服务器控件ID的方法
2015/06/08 Javascript
js传值后台中文出现乱码的解决方法
2016/06/30 Javascript
又一款js时钟!transform实现时钟效果
2016/08/15 Javascript
vue-cli+webpack记事本项目创建
2017/04/01 Javascript
vue中实现先请求数据再渲染dom分享
2018/03/17 Javascript
Vue.js 2.x之组件的定义和注册图文详解
2018/06/19 Javascript
小程序图片剪裁加旋转的示例代码
2018/07/10 Javascript
IntelliJ IDEA编辑器配置vue高亮显示
2019/09/26 Javascript
js 下拉菜单点击旁边收起实现(踩坑记)
2019/09/29 Javascript
pip安装Python库时遇到的问题及解决方法
2017/11/23 Python
运用TensorFlow进行简单实现线性回归、梯度下降示例
2018/03/05 Python
python控制windows剪贴板,向剪贴板中写入图片的实例
2018/05/31 Python
使用pandas将numpy中的数组数据保存到csv文件的方法
2018/06/14 Python
python进行两个表格对比的方法
2018/06/27 Python
如何基于Python批量下载音乐
2019/11/11 Python
python super用法及原理详解
2020/01/20 Python
Python基础之字典常见操作经典实例详解
2020/02/26 Python
一个非常简单好用的Python图形界面库(PysimpleGUI)
2020/12/28 Python
日本乐天德国站:Rakuten.de
2019/05/16 全球购物
环境工程求职简历的自我评价范文
2013/10/24 职场文书
预备党员思想汇报范文
2013/12/29 职场文书
检察官就职演讲稿
2014/01/13 职场文书
教师绩效工资方案
2014/02/01 职场文书
幼儿园儿童节活动主持词+串词大全
2014/03/21 职场文书
有关环保的标语
2014/06/13 职场文书
公司股东出资证明书
2014/11/01 职场文书
react如何快速设置文件路径别名
2021/04/28 Javascript
吉利入股戴姆勒后smart“长大了”
2022/04/21 数码科技
微软官方消息,在 2023 年 4 月 11 日之后微软将不再为 Office 2013 和 Skype for Business 2015 提供安全更新
2022/04/21 数码科技