Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python实现基本线性数据结构
Aug 22 Python
python使用pymysql实现操作mysql
Sep 13 Python
使用Python通过win32 COM打开Excel并添加Sheet的方法
May 02 Python
Python+OpenCV目标跟踪实现基本的运动检测
Jul 10 Python
Python 做曲线拟合和求积分的方法
Dec 29 Python
python利用re,bs4,requests模块获取股票数据
Jul 29 Python
python 实现视频 图像帧提取
Dec 10 Python
python中的itertools的使用详解
Jan 13 Python
Anconda环境下Vscode安装Python的方法详解
Mar 29 Python
python文件读取失败怎么处理
Jun 23 Python
pytorch 常用函数 max ,eq说明
Jun 28 Python
Python OpenCV之常用滤波器使用详解
Apr 07 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
很温暖很温暖的Lester Young
2021/03/03 冲泡冲煮
php设计模式 Strategy(策略模式)
2011/06/26 PHP
php中simplexml_load_string使用实例分享
2014/02/13 PHP
PHP版本如何选择?应该使用哪个版本?
2015/05/13 PHP
laravel5.4生成验证码的实例讲解
2017/08/05 PHP
PHP小白必须要知道的php基础知识(超实用)
2017/10/10 PHP
jquery 学习笔记 传智博客佟老师附详细注释
2020/09/12 Javascript
EasyUi tabs的高度与宽度根据IE窗口的变化自适应代码
2010/10/26 Javascript
jquery 操作css样式、位置、尺寸方法汇总
2014/11/28 Javascript
JS实现星星评分功能实例代码(两种方法)
2016/06/09 Javascript
picLazyLoad 实现图片延时加载(包含背景图片)
2016/07/21 Javascript
利用nvm管理多个版本的node.js与npm详解
2017/11/02 Javascript
element vue validate验证名称重复 输入框与后台重复验证 特殊字符 字符长度 及注意事项小结【实例代码】
2018/11/20 Javascript
nodejs 使用nodejs-websocket模块实现点对点实时通讯
2018/11/28 NodeJs
JS实现的冒泡排序,快速排序,插入排序算法示例
2019/03/02 Javascript
你不知道的Vue技巧之--开发一个可以通过方法调用的组件(推荐)
2019/04/15 Javascript
微信小程序如何通过用户授权获取手机号(getPhoneNumber)
2020/01/21 Javascript
swiper自定义分页器的样式
2020/09/14 Javascript
Node.js 中如何收集和解析命令行参数
2021/01/08 Javascript
Python列出一个文件夹及其子目录的所有文件
2016/06/30 Python
Python配置文件处理的方法教程
2019/08/29 Python
Django Docker容器化部署之Django-Docker本地部署
2019/10/09 Python
python集合删除多种方法详解
2020/02/10 Python
python Shapely使用指南详解
2020/02/18 Python
Python faker生成器生成虚拟数据代码实例
2020/07/20 Python
Python 爬虫性能相关总结
2020/08/03 Python
一文彻底解决HTML5页面中长按保存图片功能
2019/06/10 HTML / CSS
印尼最大的在线购物网站:MatahariMall.com
2016/08/26 全球购物
印度网上药店:1mg
2017/10/13 全球购物
C语言开发工程师测试题
2016/12/20 面试题
Hashtable 添加内容的方式有哪几种,有什么区别?
2012/04/08 面试题
销售工作人员的自我评价分享
2013/11/10 职场文书
质检员岗位职责
2013/12/17 职场文书
经济管理自荐书
2014/06/09 职场文书
公司离职证明范本(5篇)
2014/09/17 职场文书
MySQL的InnoDB存储引擎的数据页结构详解
2022/03/03 MySQL