Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
用python 制作图片转pdf工具
Jan 30 Python
python输出指定月份日历的方法
Apr 23 Python
用Python编写web API的教程
Apr 30 Python
利用Python为iOS10生成图标和截屏
Sep 24 Python
Python实现全角半角字符互转的方法
Nov 28 Python
详解python实现读取邮件数据并下载附件的实例
Aug 03 Python
python可视化篇之流式数据监控的实现
Aug 07 Python
python 批量修改 labelImg 生成的xml文件的方法
Sep 09 Python
Python如何使用Gitlab API实现批量的合并分支
Nov 27 Python
PyCharm 专业版安装图文教程
Feb 20 Python
matplotlib对象拾取事件处理的实现
Jan 14 Python
python numpy中setdiff1d的用法说明
Apr 22 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
php图片的二进制转换实现方法
2014/12/15 PHP
PHP的中使用非缓冲模式查询数据库的方法
2017/02/05 PHP
利用jQuery的deferred对象实现异步按顺序加载JS文件
2013/03/17 Javascript
Js保留小数点的4种效果实现代码分享
2014/04/12 Javascript
NodeJS Web应用监听sock文件实例
2015/02/18 NodeJs
javascript实现textarea中tab键的缩排处理方法
2015/06/26 Javascript
jQuery ajax方法传递中文时出现中文乱码的解决方法
2016/07/25 Javascript
Vue父子组件之间的通信实例详解
2018/09/28 Javascript
koa源码中promise的解读
2018/11/13 Javascript
详解使用React制作一个模态框
2019/03/14 Javascript
Vue开发环境中修改端口号的实现方法
2019/08/15 Javascript
vue 里面的 $forceUpdate() 强制实例重新渲染操作
2020/09/21 Javascript
详解uniapp的全局变量实现方式
2021/01/11 Javascript
Python中用Descriptor实现类级属性(Property)详解
2014/09/18 Python
Python中实现结构相似的函数调用方法
2015/03/10 Python
Python中关于使用模块的基础知识
2015/05/24 Python
Python基本语法经典教程
2016/03/11 Python
python 3.0 模拟用户登录功能并实现三次错误锁定
2017/11/01 Python
python 实现数组list 添加、修改、删除的方法
2018/04/04 Python
python中的for循环
2018/09/28 Python
python利用小波分析进行特征提取的实例
2019/01/09 Python
python批量爬取下载抖音视频
2019/06/17 Python
pytorch 预训练层的使用方法
2019/08/20 Python
python 利用pywifi模块实现连接网络破解wifi密码实时监控网络
2019/09/16 Python
Pytorch中的variable, tensor与numpy相互转化的方法
2019/10/10 Python
如何基于Python代码实现高精度免费OCR工具
2020/06/18 Python
Html5页面在微信端的分享的实现方法
2018/08/30 HTML / CSS
佛罗里达州印第安河新鲜水果:Hale Groves
2017/02/20 全球购物
时尚设计师手表:The Watch Cabin
2018/10/06 全球购物
欧缇丽加拿大官方网站:Caudalie加拿大
2019/07/18 全球购物
说出你对remoting 和webservice的理解和应用
2014/06/08 面试题
劳资专员岗位职责
2013/12/27 职场文书
医院标语大全
2014/06/23 职场文书
小学生植树节活动总结
2014/07/04 职场文书
法定代表人身份证明书
2014/09/10 职场文书
导游词之澳门玫瑰圣母堂
2019/12/03 职场文书