Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python执行外部程序的常用方法小结
Mar 21 Python
详解Python中contextlib上下文管理模块的用法
Jun 28 Python
Pycharm学习教程(4) Python解释器的相关配置
May 03 Python
windows环境下tensorflow安装过程详解
Mar 30 Python
Python 变量类型详解
Oct 10 Python
Python通用循环的构造方法实例分析
Dec 19 Python
浅谈python新式类和旧式类区别
Apr 26 Python
pandas通过字典生成dataframe的方法步骤
Jul 23 Python
快速解决docker-py api版本不兼容的问题
Aug 30 Python
python调用Matplotlib绘制分布点图
Oct 18 Python
Python 脚本的三种执行方式小结
Dec 21 Python
Python LMDB库的使用示例
Feb 14 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
php 删除记录实现代码
2009/03/12 PHP
收藏的PHP常用函数 推荐收藏保存
2010/02/21 PHP
详解如何在云服务器上部署Laravel
2017/06/30 PHP
JavaScript 事件的一些重要说明
2009/10/25 Javascript
ASP.NET jQuery 实例10 动态修改hyperlink的URL值
2012/02/03 Javascript
HTML5之lang属性与dir属性的详解
2013/06/19 Javascript
使用javascript实现ListBox左右全选,单选,多选,全请
2013/11/07 Javascript
Javascript学习笔记之 函数篇(一) : 函数声明和函数表达式
2014/06/24 Javascript
轻松创建nodejs服务器(10):处理上传图片
2014/12/18 NodeJs
IE下支持文本框和密码框placeholder效果的JQuery插件分享
2015/01/31 Javascript
JavaScript隐式类型转换
2016/03/15 Javascript
JSP基于Bootstrap分页显示实例解析
2016/06/12 Javascript
ui组件之input多选下拉实现方法(带有搜索功能)
2016/07/14 Javascript
JavaScript排序算法动画演示效果的实现方法
2016/10/18 Javascript
vue.js指令v-model实现方法
2016/12/05 Javascript
JavaScript实现格式化字符串函数String.format
2016/12/16 Javascript
ajax异步请求详解
2017/01/06 Javascript
jquery 判断是否支持Placeholder属性的方法
2017/02/07 Javascript
jQuery监听浏览器窗口大小的变化实例
2017/02/07 Javascript
JS实现去除数组中重复json的方法示例
2017/12/21 Javascript
JS字符串去除连续或全部重复字符的实例
2018/03/08 Javascript
JS闭包经典实例详解
2018/12/20 Javascript
js+audio实现音乐播放器
2020/09/13 Javascript
python使用wmi模块获取windows下硬盘信息的方法
2015/05/15 Python
Python实现随机创建电话号码的方法示例
2018/12/07 Python
python用fsolve、leastsq对非线性方程组求解
2018/12/15 Python
基于Python的图像数据增强Data Augmentation解析
2019/08/13 Python
Python用类实现扑克牌发牌的示例代码
2020/06/01 Python
Python并发请求下限制QPS(每秒查询率)的实现代码
2020/06/05 Python
HTML5实现预览本地图片
2016/02/17 HTML / CSS
在DELPHI中调用存储过程和使用内嵌SQL哪种方式更好
2016/11/22 面试题
秸秆管理实施方案
2014/03/15 职场文书
党的群众路线教育实践活动个人剖析材料
2014/10/07 职场文书
幼儿园迎新生欢迎词
2015/09/30 职场文书
Python下opencv使用hough变换检测直线与圆
2021/06/18 Python
Java使用JMeter进行高并发测试
2021/11/23 Java/Android