Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
简析Python的闭包和装饰器
Feb 26 Python
回调函数的意义以及python实现实例
Jun 20 Python
教你使用python画一朵花送女朋友
Mar 29 Python
详解pyenv下使用python matplotlib模块的问题解决
Nov 29 Python
对python中矩阵相加函数sum()的使用详解
Jan 28 Python
使用pandas把某一列的字符值转换为数字的实例
Jan 29 Python
Django 配置多站点多域名的实现步骤
May 17 Python
你应该知道的Python3.6、3.7、3.8新特性小结
May 12 Python
Python类的继承super相关原理解析
Oct 22 Python
Python reversed反转序列并生成可迭代对象
Oct 22 Python
python实现简单猜单词游戏
Dec 24 Python
在Python 中将类对象序列化为JSON
Apr 06 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
《雄兵连》系列首部大电影《烈阳天道》:可能是因为期望值太高了
2020/08/18 国漫
浏览器关闭后,能继续执行的php函数(ignore_user_abort)
2012/08/01 PHP
php is_writable判断文件是否可写实例代码
2016/10/13 PHP
关于PHP虚拟主机概念及如何选择稳定的PHP虚拟主机
2018/11/20 PHP
用javascript实现的图片马赛克后显示并切换加文字功能
2007/04/21 Javascript
js 页面执行时间计算代码
2009/03/04 Javascript
js 窗口抖动示例
2013/09/04 Javascript
jquery创建表格(自动增加表格)代码分享
2013/12/25 Javascript
javascript教程:关于if简写语句优化的方法
2014/05/17 Javascript
JavaScript设计模式之观察者模式(发布者-订阅者模式)
2014/09/24 Javascript
基于javascript实现简单的抽奖系统
2020/04/15 Javascript
Ext JS框架中日期函数的用法及日期选择控件的实现
2016/05/21 Javascript
BootStrap表单控件之文本域textarea
2017/05/23 Javascript
JS实现的数组去除重复数据算法小结
2017/11/17 Javascript
详解layui弹窗父子窗口之间传参数的方法
2018/01/16 Javascript
js实现控制文件拖拽并获取拖拽内容功能
2018/02/17 Javascript
vue axios请求拦截实例代码
2018/03/29 Javascript
说说node中的可读流和可写流的区别
2018/06/01 Javascript
JS如何获取地址栏的参数实例讲解
2018/10/06 Javascript
微信小程序实现带缩略图轮播效果
2018/11/04 Javascript
通过循环优化 JavaScript 程序
2019/06/24 Javascript
javascript实现商品图片放大镜
2019/11/28 Javascript
javscript 数组扁平化的实现
2020/02/03 Javascript
Python中的Matplotlib模块入门教程
2015/04/15 Python
python使用pil生成图片验证码的方法
2015/05/08 Python
python绘制圆柱体的方法
2018/07/02 Python
Python 读写文件的操作代码
2018/09/20 Python
Python压缩模块zipfile实现原理及用法解析
2020/08/14 Python
python的dict判断key是否存在的方法
2020/12/09 Python
使用Python快速打开一个百万行级别的超大Excel文件的方法
2021/03/02 Python
西班牙英格列斯百货法国官网:El Corte Inglés法国
2017/07/09 全球购物
学习心理学的体会
2014/11/07 职场文书
嘉宾邀请函
2015/01/31 职场文书
2015年教导处教学工作总结
2015/07/22 职场文书
小学校园广播稿
2015/08/18 职场文书
python的变量和简单数字类型详解
2021/09/15 Python