Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python 提取文件的小程序
Jul 29 Python
Python面向对象编程之继承与多态详解
Jan 16 Python
使用python3实现操作串口详解
Jan 01 Python
selenium+python环境配置教程详解
May 28 Python
浅谈Python中(&,|)和(and,or)之间的区别
Aug 07 Python
基于Python实现船舶的MMSI的获取(推荐)
Oct 21 Python
python元组的概念知识点
Nov 19 Python
python Shapely使用指南详解
Feb 18 Python
给ubuntu18安装python3.7的详细教程
Jun 08 Python
PyCharm2019 安装和配置教程详解附激活码
Jul 31 Python
Python 调用 ES、Solr、Phoenix的示例代码
Nov 23 Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
解析coreseek for sphinx的使用
2013/06/21 PHP
分享五个PHP7性能优化提升技巧
2015/12/07 PHP
CodeIgniter自定义控制器MY_Controller用法分析
2016/01/20 PHP
PHP实现表单提交数据的验证处理功能【防SQL注入和XSS攻击等】
2017/07/21 PHP
PHP实现的curl批量请求操作示例
2018/06/06 PHP
JS动态获取当前时间,并写到特定的区域
2013/05/03 Javascript
js中的scroll和offset 使用比较的实例与分析
2013/09/29 Javascript
nodejs实现获取某宝商品分类
2015/05/28 NodeJs
JavaScript中利用jQuery绑定事件的几种方式小结
2016/03/06 Javascript
浅谈jquery上下滑动的注意事项
2016/10/13 Javascript
基于Vue.js实现简单搜索框
2020/03/26 Javascript
vue双向数据绑定原理探究(附demo)
2017/01/17 Javascript
jQuery 判断元素整理汇总
2017/02/28 Javascript
AngularJS中使用ngModal模态框实例
2017/05/27 Javascript
一步步教你利用Canvas对图片进行处理
2017/09/19 Javascript
Vue 兄弟组件通信的方法(不使用Vuex)
2017/10/26 Javascript
JavaScript实现元素滚动条到达一定位置循环追加内容
2017/12/28 Javascript
VUE Error: getaddrinfo ENOTFOUND localhost
2018/05/03 Javascript
Angular4 组件通讯方法大全(推荐)
2018/07/12 Javascript
简谈创建React Component的几种方式
2019/06/15 Javascript
一文看懂如何简单实现节流函数和防抖函数
2019/09/05 Javascript
js滚轮事件 js自定义滚动条的实现
2020/01/18 Javascript
js实现点击选项置顶动画效果
2020/08/25 Javascript
python在linux中输出带颜色的文字的方法
2014/06/19 Python
Flask框架的学习指南之制作简单blog系统
2016/11/20 Python
Python操作mongodb数据库进行模糊查询操作示例
2018/06/09 Python
Python中几种属性访问的区别与用法详解
2018/10/10 Python
python 通过类中一个方法获取另一个方法变量的实例
2019/01/22 Python
Python实现简单查找最长子串功能示例
2019/02/26 Python
利用python-pypcap抓取带VLAN标签的数据包方法
2019/07/23 Python
英国户外玩具儿童游乐设备网站:TP Toys(蹦床、攀爬框架、秋千、滑梯和游戏屋)
2018/04/09 全球购物
iHerb中文官网:维生素、保健品和健康产品
2018/11/01 全球购物
英国汽车零件购物网站:GSF Car Parts
2019/05/23 全球购物
2015年春训学习心得体会范文
2015/03/09 职场文书
企业内部管理控制:银行存款控制制度范本
2020/01/10 职场文书
JS实现九宫格拼图游戏
2022/06/28 Javascript