Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python接收Gmail新邮件并发送到gtalk的方法
Mar 10 Python
Python实现遍历windows所有窗口并输出窗口标题的方法
Mar 13 Python
Python多线程编程(三):threading.Thread类的重要函数和方法
Apr 05 Python
python在指定目录下查找gif文件的方法
May 04 Python
python3利用venv配置虚拟环境及过程中的小问题小结
Aug 01 Python
Python寻找路径和查找文件路径的示例
Jul 10 Python
如何用Python破解wifi密码过程详解
Jul 12 Python
Django 过滤器汇总及自定义过滤器使用详解
Jul 19 Python
用Python徒手撸一个股票回测框架搭建【推荐】
Aug 05 Python
python3 logging日志封装实例
Apr 08 Python
python 实现两个线程交替执行
May 02 Python
python爬虫工具例举说明
Nov 30 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
推荐个功能齐全的发送PHP邮件类
2007/01/03 PHP
php cookie 登录验证示例代码
2009/03/16 PHP
PHP扩展编写点滴 技巧收集
2010/03/09 PHP
学习php分页代码实例
2013/10/24 PHP
PHP中数据库单例模式的实现代码分享
2014/08/21 PHP
php实现按指定大小等比缩放生成上传图片缩略图的方法
2014/12/15 PHP
php实现异步数据调用的方法
2015/12/24 PHP
利用php-cli和任务计划实现刷新token功能的方法
2017/05/03 PHP
php实现微信企业转账功能
2018/10/02 PHP
聊聊 PHP 8 新特性 Attributes
2020/08/19 PHP
javascript 兼容鼠标滚轮事件
2009/04/07 Javascript
基于jQuery的日期选择控件
2009/10/27 Javascript
jquery parent和parents的区别分析
2013/10/02 Javascript
js获取url中指定参数值的示例代码
2013/12/14 Javascript
javascript计算星座属相(十二生肖属相)示例代码
2014/01/09 Javascript
jQuery中prevUntil()方法用法实例
2015/01/08 Javascript
jQuery学习笔记——jqGrid的使用记录(实现分页、搜索功能)
2016/11/09 Javascript
详解jQuery简单的表单应用
2016/12/16 Javascript
利用node.js如何搭建一个简易的即时响应服务器
2017/05/28 Javascript
JavaScript脚本语言是什么_动力节点Java学院整理
2017/06/26 Javascript
在Vue中使用highCharts绘制3d饼图的方法
2018/02/08 Javascript
JS文件中加载jquery.js的实例代码
2018/05/05 jQuery
Vue单页及多页应用全局配置404页面实践记录
2018/05/22 Javascript
彻底弄懂 JavaScript 执行机制
2018/10/23 Javascript
vue动态路由:路由参数改变,视图不更新问题的解决
2019/11/05 Javascript
JS实现基本的网页计算器功能示例
2020/01/16 Javascript
Python内置函数dir详解
2015/04/14 Python
Python的Flask框架中的Jinja2模板引擎学习教程
2016/06/30 Python
Python性能提升之延迟初始化
2016/12/04 Python
python try 异常处理(史上最全)
2019/03/07 Python
Python中Numpy ndarray的使用详解
2019/05/24 Python
html5播放视频且动态截图实现步骤与代码(支持safari其他未测试)
2013/01/06 HTML / CSS
伦敦哈德森鞋:Hudson Shoes
2018/02/06 全球购物
美国背景检查、公共记录和人物搜索网站:BeenVerified
2018/02/25 全球购物
班主任工作实习计划
2015/01/16 职场文书
Apache Linkis 中间件架构及快速安装步骤
2022/03/16 Servers