Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python发送邮件的实例代码(支持html、图片、附件)
Mar 04 Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 Python
使用rst2pdf实现将sphinx生成PDF
Jun 07 Python
快速解决安装python没有scripts文件夹的问题
Apr 03 Python
python实现简单登陆流程的方法
Apr 22 Python
Python格式化输出%s和%d
May 07 Python
python微信好友数据分析详解
Nov 19 Python
计算机二级python学习教程(3) python语言基本数据类型
May 16 Python
基于Python3.7.1无法导入Numpy的解决方式
Mar 09 Python
pytorch显存一直变大的解决方案
Apr 08 Python
Python基础之元编程知识总结
May 23 Python
Python下opencv库的安装过程及问题汇总
Jun 11 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
php操作xml
2013/10/27 PHP
php中define用法实例
2015/07/30 PHP
javascript onkeydown,onkeyup,onkeypress,onclick,ondblclick
2009/02/04 Javascript
jQuery中:button选择器用法实例
2015/01/04 Javascript
jQuery获得包含margin的outerWidth和outerHeight的方法
2015/03/25 Javascript
jquery实现Ctrl+Enter提交表单的方法
2015/07/21 Javascript
js调用屏幕宽度的简单方法
2016/11/14 Javascript
原生JS实现图片左右轮播
2016/12/30 Javascript
基于Marquee.js插件实现的跑马灯效果示例
2017/01/25 Javascript
Javascript创建类和对象详解
2017/05/31 Javascript
webpack4的迁移的使用方法
2018/05/25 Javascript
创建echart多个联动的示例代码
2018/11/23 Javascript
微信小程序实现圆形进度条动画
2020/11/18 Javascript
layui树形菜单动态遍历的例子
2019/09/23 Javascript
Vue移动端实现图片上传及超过1M压缩上传
2019/12/23 Javascript
JS中this的4种绑定规则详解
2020/02/04 Javascript
js canvas实现俄罗斯方块
2020/10/11 Javascript
Python实现的简单万年历例子分享
2014/04/25 Python
Python压缩解压缩zip文件及破解zip文件密码的方法
2015/11/04 Python
Python爬虫实现网页信息抓取功能示例【URL与正则模块】
2017/05/18 Python
Python合并同一个文件夹下所有PDF文件的方法
2019/03/11 Python
Python集合基本概念与相关操作实例分析
2019/10/30 Python
python学生信息管理系统实现代码
2019/12/17 Python
Python Flask异步发送邮件实现方法解析
2020/08/01 Python
Python数据分析库pandas高级接口dt的使用详解
2020/12/11 Python
html5之Canvas路径绘图、坐标变换应用实例
2012/12/26 HTML / CSS
澳大利亚的奢侈品牌:Oroton
2016/08/26 全球购物
小米俄罗斯授权商店:Xiaomi俄罗斯
2019/12/08 全球购物
Three Graces London官网:英国奢侈品牌
2021/03/18 全球购物
UNIX文件类型
2013/08/29 面试题
师范生自我鉴定范文
2013/10/05 职场文书
银行学习十八大感想
2014/01/11 职场文书
受伤赔偿协议书
2014/09/24 职场文书
实习证明格式范文
2014/10/14 职场文书
2015年房产经纪人工作总结
2015/05/15 职场文书
Go各时间字符串使用解析
2021/04/02 Golang