Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python使用py2exe打包程序介绍
Nov 20 Python
Django Highcharts制作图表
Aug 27 Python
python2.7安装图文教程
Mar 13 Python
面向初学者的Python编辑器Mu
Oct 08 Python
python爬虫 基于requests模块发起ajax的get请求实现解析
Aug 20 Python
Tensorflow之梯度裁剪的实现示例
Mar 08 Python
python Django 反向访问器的外键冲突解决
May 20 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
Jul 14 Python
详解python3类型注释annotations实用案例
Jan 20 Python
pip/anaconda修改镜像源,加快python模块安装速度的操作
Mar 04 Python
Python机器学习之逻辑回归
May 11 Python
python tqdm用法及实例详解
Jun 16 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
PHP持久连接mysql_pconnect()函数使用介绍
2012/02/05 PHP
php绘图之加载外部图片的方法
2015/01/24 PHP
php身份证号码检查类实例
2015/06/18 PHP
传智播客学习之JavaScript基础篇
2009/11/13 Javascript
原生js ActiveXObject获取execl里面的值
2013/11/01 Javascript
jquery 页眉单行信息滚动显示实现思路及代码
2014/06/26 Javascript
Javascript函数式编程语言
2015/10/11 Javascript
Node.js中使用socket创建私聊和公聊聊天室
2015/11/19 Javascript
探索angularjs+requirejs全面实现按需加载的套路
2016/02/26 Javascript
jQuery插件ajaxFileUpload异步上传文件
2016/10/19 Javascript
浅谈vuex之mutation和action的基本使用
2017/08/29 Javascript
jQuery中库的引用方法
2018/01/06 jQuery
JS实现键值对遍历json数组功能示例
2018/05/30 Javascript
微信小程序遍历Echarts图表实现多个饼图
2019/04/25 Javascript
简单实现节流函数和防抖函数过程解析
2019/10/08 Javascript
Nuxt的路由动画效果案例
2020/11/06 Javascript
python教程之用py2exe将PY文件转成EXE文件
2014/06/12 Python
Python的pycurl包用法简介
2015/11/13 Python
python3+PyQt5使用数据库表视图
2018/04/24 Python
Django实现全文检索的方法(支持中文)
2018/05/14 Python
django加载本地html的方法
2018/05/27 Python
python中通过selenium简单操作及元素定位知识点总结
2019/09/10 Python
Tensorflow tf.dynamic_partition矩阵拆分示例(Python3)
2020/02/07 Python
matplotlib实现数据实时刷新的示例代码
2021/01/05 Python
HTML5 Web存储方式的localStorage和sessionStorage进行数据本地存储案例应用
2012/12/09 HTML / CSS
Vichy薇姿加拿大官网:法国药妆,全球专业敏感肌护肤领先品牌
2018/07/11 全球购物
加拿大时装零售商:Influence U
2018/12/22 全球购物
Lululemon加拿大官网:加拿大知名体育服装零售商
2019/04/12 全球购物
上海中网科技笔试题
2012/02/19 面试题
国际商务系学生个人的自我评价
2013/11/26 职场文书
党员自我评价分享
2013/12/13 职场文书
倡议书范文格式
2014/05/12 职场文书
2015年世界艾滋病日活动总结
2015/03/24 职场文书
婚礼长辈答谢词
2015/09/29 职场文书
写作指导:怎么书写竞聘演讲稿?
2019/07/04 职场文书
Redis 报错 error:NOAUTH Authentication required
2022/05/15 Redis