python3 Scrapy爬虫框架ip代理配置的方法


Posted in Python onJanuary 17, 2020

什么是Scrapy?

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。

一、背景

     在做爬虫项目的过程中遇到ip代理的问题,网上搜了一些,要么是用阿里云的ip代理,要么是搜一些网上现有的ip资源,然后配置在setting文件中。这两个方法都存在一些问题。

1、阿里云ip代理方法,网上大都是配置阿里云的ip代理的用户名、密码然后加密、解密。我按照上面的方面操作,发现阿里云上面的ip代理的参数里面没有用户名、密码相关的参数配置了。

python3 Scrapy爬虫框架ip代理配置的方法

2、至于网上查到的另外一种方法是在setting文件里面添加代理IP资源池,然后再在middlewares.py文件里面添加上一些代码来实现,但代理ip不一定是可用的。

二、改进方法

1、基于背景中提到的网上两种方法的局限性,我在此综合了两种方法。

2、改进方法:

1)利用阿里云的ip代理API生成50个代理IP资源池(用自己的阿里云账号登陆生成的,ip有效性得到保障)

2)直接在middlewares.py中添加如下函数,PROXIES为在阿里云上面生成的ip,此处涉及到个人隐私,故用****代替。

class my_proxy(object):
  def process_request(self, request, spider):
    PROXIES = ['http://****.****.****.****:8080']
    ip = random.choice(PROXIES)
    request.meta['Proxy-Authorization'] = ip

注意:request.meta的方括号里面的关键字需要写对,不然无法正常运行。

总结

以上所述是小编给大家介绍的python3 Scrapy爬虫框架ip代理配置的方法,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python对字典进行排序实例
Sep 25 Python
python3.5使用tkinter制作记事本
Jun 20 Python
python实现可以断点续传和并发的ftp程序
Sep 13 Python
Python 多线程的实例详解
Sep 07 Python
Python实现二维数组按照某行或列排序的方法【numpy lexsort】
Sep 22 Python
Python实现PS滤镜碎片特效功能示例
Jan 24 Python
对django中render()与render_to_response()的区别详解
Oct 16 Python
python 利用for循环 保存多个图像或者文件的实例
Nov 09 Python
python面试题之列表声明实例分析
Jul 08 Python
django echarts饼图数据动态加载的实例
Aug 12 Python
Django之腾讯云短信的实现
Jun 12 Python
python编程项目中线上问题排查与解决
Nov 01 Python
Python计算机视觉里的IOU计算实例
Jan 17 #Python
python实现百度OCR图片识别过程解析
Jan 17 #Python
Python实现图像的垂直投影示例
Jan 17 #Python
基于python实现语音录入识别代码实例
Jan 17 #Python
Python操作MySQL数据库实例详解【安装、连接、增删改查等】
Jan 17 #Python
python实现高斯投影正反算方式
Jan 17 #Python
python中图像通道分离与合并实例
Jan 17 #Python
You might like
PHPlet在Windows下的安装
2006/10/09 PHP
微信 getAccessToken方法详解及实例
2016/11/23 PHP
JScript中的"this"关键字使用方式补充材料
2007/03/08 Javascript
javascript jQuery插件练习
2008/12/24 Javascript
Javascript浮点数乘积运算出现多位小数的解决方法
2014/02/17 Javascript
原生javaScript实现图片延时加载的方法
2014/12/22 Javascript
js正则表达式中exec用法实例
2015/07/23 Javascript
IE7浏览器窗口大小改变事件执行多次bug及IE6/IE7/IE8下resize问题
2015/08/21 Javascript
JavaScript实现的浮动层框架用法实例分析
2015/10/10 Javascript
JavaScript模块规范之AMD规范和CMD规范
2015/10/27 Javascript
js实现数组去重方法及效率?Ρ? target=
2017/02/14 Javascript
浅谈angularjs中响应回车事件
2017/04/24 Javascript
JavaScript获取移动设备型号的实现代码(JS获取手机型号和系统)
2018/03/10 Javascript
为什么使用koa2搭建微信第三方公众平台的原因
2018/05/16 Javascript
[02:16]DOTA2超级联赛专访Burning 逆袭需要抓住机会
2013/06/24 DOTA
[04:22]DOTA2上海特级锦标赛主赛事第四日TOP10
2016/03/06 DOTA
详解Python中with语句的用法
2015/04/15 Python
Python实现求两个csv文件交集的方法
2017/09/06 Python
python实现BackPropagation算法
2017/12/14 Python
python爬虫租房信息在地图上显示的方法
2019/05/13 Python
python3下载抖音视频的完整代码
2019/06/05 Python
python脚本之一键移动自定格式文件方法实例
2019/09/02 Python
python 读写文件包含多种编码格式的解决方式
2019/12/20 Python
Python实现使用dir获取类的方法列表
2019/12/24 Python
Python基于paramunittest模块实现excl参数化
2020/04/26 Python
NEW LOOK官网:英国时装零售巨头之一,快时尚品牌
2017/01/11 全球购物
如何在.net Winform里面显示PDF文档
2012/09/11 面试题
中文专业学生自我评价范文
2014/02/06 职场文书
餐厅经理岗位职责范本
2014/02/17 职场文书
2014年教研室工作总结
2014/12/06 职场文书
销售开票员岗位职责
2015/04/15 职场文书
2015年招生工作总结
2015/05/04 职场文书
公司行政管理制度范本
2015/08/05 职场文书
会计继续教育培训心得体会
2016/01/19 职场文书
go原生库的中bytes.Buffer用法
2021/04/25 Golang
vue2的 router在使用过程中遇到的一些问题
2022/04/13 Vue.js