Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
深入解析Python中的__builtins__内建对象
Jun 21 Python
Python 使用类写装饰器的小技巧
Sep 30 Python
在python中利用KNN实现对iris进行分类的方法
Dec 11 Python
python 去除二维数组/二维列表中的重复行方法
Jan 23 Python
Python操作rabbitMQ的示例代码
Mar 19 Python
Django接收post前端返回的json格式数据代码实现
Jul 31 Python
python中pygame安装过程(超级详细)
Aug 04 Python
django+echart数据动态显示的例子
Aug 12 Python
python去除删除数据中\u0000\u0001等unicode字符串的代码
Mar 06 Python
python实现俄罗斯方块小游戏
Apr 24 Python
Python configparser模块常用方法解析
May 22 Python
Pytorch中的学习率衰减及其用法详解
Jun 05 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
Smarty局部缓存的几种方法简介
2014/06/17 PHP
Yii入门教程之目录结构、入口文件及路由设置
2014/11/25 PHP
PHP获取youku视频真实flv文件地址的方法
2014/12/23 PHP
php获取'/'传参的值简单方法
2017/07/13 PHP
laravel框架实现去掉URL中index.php的方法
2019/10/12 PHP
PHP超全局变量实现原理及代码解析
2020/09/01 PHP
return false,对阻止事件默认动作的一些测试代码
2010/11/17 Javascript
div模拟滚动条效果示例代码
2013/10/16 Javascript
Jquery 过滤器(first,last,not,even,odd)的使用
2014/01/22 Javascript
node.js中RPC(远程过程调用)的实现原理介绍
2014/12/05 Javascript
js根据鼠标移动速度背景图片自动旋转的方法
2015/02/28 Javascript
javascript实现密码验证
2015/11/10 Javascript
基于JavaScript判断浏览器到底是关闭还是刷新(超准确)
2016/02/01 Javascript
JavaScript深度复制(deep clone)的实现方法
2016/02/19 Javascript
值得分享的轻量级Bootstrap Table表格插件
2016/05/30 Javascript
jQuery实现鼠标选中文字后弹出提示窗口效果【附demo源码】
2016/09/05 Javascript
Bootstrap Table从服务器加载数据进行显示的实现方法
2016/09/29 Javascript
vue slot与传参实例代码讲解
2019/04/28 Javascript
vue-cli3中vue.config.js配置教程详解
2019/05/29 Javascript
微信小程序服务器日期格式化问题
2020/01/07 Javascript
Python提取Linux内核源代码的目录结构实现方法
2016/06/24 Python
Python中的TCP socket写法示例
2018/05/11 Python
Atom Python 配置Python3 解释器的方法
2019/08/28 Python
Python 实现打印单词的菱形字符图案
2020/04/12 Python
HTML5 video循环播放多个视频的方法步骤
2020/08/06 HTML / CSS
北美主要的汽车零部件零售商:AutoShack.com
2019/02/23 全球购物
波兰最早的运动鞋精品店之一:Street Supply
2019/08/29 全球购物
英国名牌服装购物网站:OD’s Designer
2019/09/02 全球购物
酒店温馨提示语
2015/07/14 职场文书
优质护理服务心得体会
2016/01/22 职场文书
红灯733-1型14管5波段半导体收音机
2021/04/22 无线电
JS Object构造函数之Object.freeze
2021/04/28 Javascript
MySQL数字类型自增的坑
2021/05/07 MySQL
Mysql 如何实现多张无关联表查询数据并分页
2021/06/05 MySQL
Python docx库删除复制paragraph及行高设置图片插入示例
2022/07/23 Python
java获取一个文本文件的编码(格式)信息
2022/09/23 Java/Android