Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
详细解读Python中的__init__()方法
May 02 Python
python实现连接mongodb的方法
May 08 Python
python删除服务器文件代码示例
Feb 09 Python
python 函数内部修改外部变量的方法
Dec 18 Python
Python 微信之获取好友昵称并制作wordcloud的实例
Feb 21 Python
Python matplotlib画图与中文设置操作实例分析
Apr 23 Python
在macOS上搭建python环境的实现方法
Aug 13 Python
python实现修改固定模式的字符串内容操作示例
Dec 30 Python
pytorch下大型数据集(大型图片)的导入方式
Jan 08 Python
pygame实现弹球游戏
Apr 14 Python
利用python实现平稳时间序列的建模方式
Jun 03 Python
matplotlib之pyplot模块实现添加子图subplot的使用
Apr 25 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
PHPWind 发帖回帖Api PHP版打包下载
2010/02/08 PHP
php文件服务实现虚拟挂载其他目录示例
2014/04/17 PHP
CI框架中cookie的操作方法分析
2014/12/12 PHP
php数组键名技巧小结
2015/02/17 PHP
php实现通过cookie换肤的方法
2015/07/13 PHP
php生成验证码函数
2015/10/20 PHP
PHP下使用mysqli的函数连接mysql出现warning: mysqli::real_connect(): (hy000/1040): ...
2016/02/14 PHP
php解析mht文件转换成html的实例
2017/03/13 PHP
点击下载链接 弹出页面实现代码
2009/10/01 Javascript
jquery mobile的触控点击事件会多次触发问题的解决方法
2014/05/08 Javascript
JavaScript函数作用域链分析
2015/02/13 Javascript
Bootstrap 组件之按钮(二)
2016/05/11 Javascript
jquery siblings获取同辈元素用法实例分析
2016/07/25 Javascript
JavaScript数组操作详解
2017/02/04 Javascript
浅谈React 服务器端渲染的使用
2018/05/08 Javascript
详解服务端预渲染之Nuxt(介绍篇)
2019/04/07 Javascript
Node.js折腾记一:读指定文件夹,输出该文件夹的文件树详解
2019/04/20 Javascript
微信小程序云开发之新手环境配置
2019/05/16 Javascript
详解微信小程序图片地扯转base64解决方案
2019/08/18 Javascript
JavaScript实现公告栏上下滚动效果
2020/03/13 Javascript
[01:03:37]Secret vs VGJ.S Supermajor小组赛C组 BO3 第二场 6.3
2018/06/04 DOTA
Python实现识别手写数字 简易图片存储管理系统
2018/01/29 Python
Python及Django框架生成二维码的方法分析
2018/01/31 Python
对Python3.x版本print函数左右对齐详解
2018/12/22 Python
Python字符串通过'+'和join函数拼接新字符串的性能测试比较
2019/03/05 Python
使用python3调用wxpy模块监控linux日志并定时发送消息给群组或好友
2019/06/05 Python
Python实现微信机器人的方法
2019/09/06 Python
基于pandas向csv添加新的行和列
2020/05/25 Python
Python实现图片查找轮廓、多边形拟合、最小外接矩形代码
2020/07/14 Python
Melissa鞋英国官方网站:Nonnon
2019/05/01 全球购物
哥德堡通行证:Gothenburg Pass
2019/12/09 全球购物
团支书竞选演讲稿
2014/04/28 职场文书
开服装店计划书
2014/08/15 职场文书
推广普通话共筑中国梦演讲稿
2014/09/21 职场文书
学法用法心得体会(2016推荐篇)
2016/01/21 职场文书
redis sentinel监控高可用集群实现的配置步骤
2022/04/01 Redis