Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python实现爬虫下载美女图片
Jul 14 Python
Python使用xlwt模块操作Excel的方法详解
Mar 27 Python
Python实现的读写json文件功能示例
Jun 05 Python
Python删除n行后的其他行方法
Jan 28 Python
python批量图片处理简单示例
Aug 06 Python
python matplotlib库绘制条形图练习题
Aug 10 Python
详解python列表(list)的使用技巧及高级操作
Aug 15 Python
详解Python Opencv和PIL读取图像文件的差别
Dec 27 Python
python str字符串转uuid实例
Mar 03 Python
Anaconda配置pytorch-gpu虚拟环境的图文教程
Apr 16 Python
python代数式括号有效性检验示例代码
Oct 04 Python
Pytorch中TensorBoard及torchsummary的使用详解
May 12 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
关于PHP中的Class的几点个人看法
2006/10/09 PHP
Symfony2安装的方法(2种方法)
2016/02/04 PHP
JavaScript高级程序设计 读书笔记之九 本地对象Array
2012/02/27 Javascript
JS编程小常识很有用
2012/11/26 Javascript
javascript动态设置样式style实例分析
2015/05/13 Javascript
JQuery实现Ajax加载图片的方法
2015/12/24 Javascript
bootstrap折叠调用collapse()后data-parent不生效的快速解决办法
2017/02/23 Javascript
layui-laydate时间日历控件使用方法详解
2018/11/15 Javascript
electron制作仿制qq聊天界面的示例代码
2018/11/26 Javascript
JS实现点击按钮随机生成可拖动的不同颜色块示例
2019/01/30 Javascript
js实现简易拖拽的示例
2020/10/26 Javascript
Python中除法使用的注意事项
2014/08/21 Python
python实现堆栈与队列的方法
2015/01/15 Python
Python返回真假值(True or False)小技巧
2015/04/10 Python
python利用matplotlib库绘制饼图的方法示例
2016/12/18 Python
利用python模拟实现POST请求提交图片的方法
2017/07/25 Python
基于Python socket的端口扫描程序实例代码
2018/02/09 Python
Python即时网络爬虫项目启动说明详解
2018/02/23 Python
pycharm运行程序时在Python console窗口中运行的方法
2018/12/03 Python
Python实现网站表单提交和模板
2019/01/15 Python
python基于K-means聚类算法的图像分割
2019/10/30 Python
在python中创建指定大小的多维数组方式
2019/11/28 Python
python学生信息管理系统实现代码
2019/12/17 Python
Django中ORM找出内容不为空的数据实例
2020/05/20 Python
运行python提示no module named sklearn的解决方法
2020/11/29 Python
Diamondback自行车:拥有你的冒险
2019/04/22 全球购物
世界上最大的皮肤科医生拥有和经营的美容网站:LovelySkin
2021/01/03 全球购物
总经理助理岗位职责
2013/11/08 职场文书
俄语专业职业生涯规划
2014/02/26 职场文书
初中学生期末评语
2014/04/24 职场文书
毕业生工作求职信
2014/06/30 职场文书
简单的离婚协议书范本
2014/11/16 职场文书
寻衅滋事罪辩护词
2015/05/21 职场文书
庆祝教师节新闻稿
2015/07/17 职场文书
JavaScript 反射学习技巧
2021/10/16 Javascript
JavaScript严格模式不支持八进制的问题讲解
2021/11/07 Javascript