Python数据抓取爬虫代理防封IP方法


Posted in Python onDecember 23, 2018

爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,一般来说,Python爬虫程序很多时候都要使用(飞猪IP)代理的IP地址来爬取程序,但是默认的urlopen是无法使用代理的IP的,我就来分享一下Python爬虫怎样使用代理IP的经验。(推荐飞猪代理IP注册可免费使用,浏览器搜索可找到)

Python数据抓取爬虫代理防封IP方法

1、划重点,小编我用的是Python3哦,所以要导入urllib的request,然后我们调用ProxyHandler,它可以接收代理IP的参数。代理可以根据自己需要选择,当然免费的也是有的,但是可用率可想而知的。(飞猪IP)

Python数据抓取爬虫代理防封IP方法

2、接着把IP地址以字典的形式放入其中,这个IP地址是我乱写的,只是用来举例。设置键为http,当然有些是https的,然后后面就是IP地址以及端口号(9000),具体看你的IP地址是什么类型的,不同IP端口号可能不同根据你在飞猪提取的端口为准。

Python数据抓取爬虫代理防封IP方法

3、接着再用build_opener()来构建一个opener对象。

Python数据抓取爬虫代理防封IP方法

4、然后调用构建好的opener对象里面的open方法来发生请求。实际上urlopen也是类似这样使用内部定义好的opener.open(),这里就相当于我们自己重写。

Python数据抓取爬虫代理防封IP方法

5、当然了,如果我们使用install_opener(),就可以把之前自定义的opener设置成全局的。

Python数据抓取爬虫代理防封IP方法

6、设置成全局之后,如果我们再使用urlopen来发送请求,那么发送请求使用的IP地址就是代理IP,而不是本机的IP地址了。

Python数据抓取爬虫代理防封IP方法

7、最后再来说说使用代理遇到的错误,提示目标计算机积极拒绝,这就说明可能是代理IP无效,或者端口号错误,这就需要使用有效的IP才行哦。(这边现在是乱填写的IP地址)可选择飞猪的代理IP。

Python数据抓取爬虫代理防封IP方法

总结:以上就是本次关于Python数据抓取爬虫代理防封IP方法,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
详解Python中的装饰器、闭包和functools的教程
Apr 02 Python
使用Python的Bottle框架写一个简单的服务接口的示例
Aug 25 Python
python实现爬虫统计学校BBS男女比例之数据处理(三)
Dec 31 Python
关于Python中Inf与Nan的判断问题详解
Feb 08 Python
python根据unicode判断语言类型实例代码
Jan 17 Python
Python全排列操作实例分析
Jul 24 Python
Python企业编码生成系统之系统主要函数设计详解
Jul 26 Python
实例详解Python装饰器与闭包
Jul 29 Python
pytest中文文档之编写断言
Sep 12 Python
flask框架蓝图和子域名配置详解
Jan 25 Python
Python reshape的用法及多个二维数组合并为三维数组的实例
Feb 07 Python
python自动打开浏览器下载zip并提取内容写入excel
Jan 04 Python
python3爬虫怎样构建请求header
Dec 23 #Python
windows下搭建python scrapy爬虫框架步骤
Dec 23 #Python
python构建基础的爬虫教学
Dec 23 #Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
You might like
PHP新手上路(十二)
2006/10/09 PHP
使ecshop模板中可引用常量的实现方法
2011/06/02 PHP
php中日期加减法运算实现代码
2011/12/08 PHP
php include和require的区别深入解析
2013/06/17 PHP
PHP 将数组打乱 shuffle函数的用法及简单实例
2016/06/17 PHP
php arsort 数组降序排序详细介绍
2016/11/17 PHP
如何做到打开一个页面,过几分钟自动转到另一页面
2007/04/20 Javascript
Prototype Selector对象学习
2009/07/23 Javascript
jQuery点击tr实现checkbox选中的方法
2013/03/19 Javascript
js如何判断不同系统的浏览器类型
2013/10/28 Javascript
js简单实现交换Li的值
2014/05/22 Javascript
JS实现控制表格行文本对齐的方法
2015/03/30 Javascript
javascript实现网页屏蔽Backspace事件,输入框不屏蔽
2015/07/21 Javascript
jquery实现文本框textarea自适应高度
2016/03/09 Javascript
深入理解js generator数据类型
2016/08/16 Javascript
微信小程序 swiper制作tab切换实现附源码
2017/01/21 Javascript
Vue.js实现多条件筛选、搜索、排序及分页的表格功能
2020/11/24 Javascript
vue实现菜单切换功能
2019/05/08 Javascript
JS定时器如何实现提交成功提示功能
2020/06/12 Javascript
[04:02]DOTA2上海特锦赛小组赛第二日recap精彩回顾
2016/02/28 DOTA
[50:04]DOTA2上海特级锦标赛D组小组赛#2 Liquid VS VP第二局
2016/02/28 DOTA
Python求两个list的差集、交集与并集的方法
2014/11/01 Python
Python编程之列表操作实例详解【创建、使用、更新、删除】
2017/07/22 Python
Python实现按当前日期(年、月、日)创建多级目录的方法
2018/04/26 Python
python使用magic模块进行文件类型识别方法
2018/12/08 Python
在python中以相同顺序shuffle两个list的方法
2018/12/13 Python
python实现输出一个序列的所有子序列示例
2019/11/18 Python
python动态文本进度条的实例代码
2020/01/22 Python
Pycharm激活方法及详细教程(详细且实用)
2020/05/12 Python
什么是跨站脚本攻击
2014/12/11 面试题
材料加工硕士生求职信
2013/10/10 职场文书
装修五一活动策划案
2014/01/23 职场文书
我的未来不是梦演讲稿
2014/09/02 职场文书
标准版离职证明书
2014/09/12 职场文书
听课评课活动心得体会
2016/01/15 职场文书
mysql死锁和分库分表问题详解
2021/04/16 MySQL