Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python re模块findall()函数实例解析
Jan 19 Python
TensorFlow数据输入的方法示例
Jun 19 Python
python实现对指定字符串补足固定长度倍数截断输出的方法
Nov 15 Python
在python中使用xlrd获取合并单元格的方法
Dec 26 Python
python获取网络图片方法及整理过程详解
Dec 20 Python
python 实现从高分辨图像上抠取图像块
Jan 02 Python
AUC计算方法与Python实现代码
Feb 28 Python
python中os包的用法
Jun 01 Python
python如何随机生成高强度密码
Aug 19 Python
Python函数__new__及__init__作用及区别解析
Aug 31 Python
pycharm配置QtDesigner的超详细方法
Jan 25 Python
Python爬虫实例之2021猫眼票房字体加密反爬策略(粗略版)
Feb 22 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
PHPMyadmin 配置文件详解(配置)
2009/12/03 PHP
深入密码加salt原理的分析
2013/06/06 PHP
php 数组处理函数extract详解及实例代码
2016/11/23 PHP
checkbox 多选框 联动实现代码
2008/10/22 Javascript
javascript web对话框与弹出窗口
2009/02/22 Javascript
jquery固定底网站底部菜单效果
2013/08/13 Javascript
jquery复选框checkbox实现删除前判断
2014/04/20 Javascript
使用Chrome调试JavaScript的断点设置和调试技巧
2014/12/16 Javascript
JavaScript搜索字符串并将搜索结果返回到字符串的方法
2015/04/06 Javascript
浅谈javascript的分号的使用
2015/05/12 Javascript
五种js判断是否为整数类型方式
2015/12/03 Javascript
Angularjs 自定义服务的三种方式(推荐)
2016/08/02 Javascript
Javascript中函数名.length属性用法分析(对比arguments.length)
2016/09/16 Javascript
Node.js + Redis Sorted Set实现任务队列
2016/09/19 Javascript
Angular4实现动态添加删除表单输入框功能
2017/08/11 Javascript
Javascript刷新页面的实例
2017/09/23 Javascript
vue组件横向树实现代码
2018/08/02 Javascript
一次Webpack配置文件的分离实战记录
2018/11/30 Javascript
vue.js页面加载执行created,mounted的先后顺序说明
2020/11/07 Javascript
[01:01:29]2018DOTA2亚洲邀请赛 4.4 淘汰赛 VP vs Liquid 第一场
2018/04/05 DOTA
Python获取apk文件URL地址实例
2013/11/01 Python
学习python 之编写简单乘法运算题
2016/02/27 Python
基础的十进制按位运算总结与在Python中的计算示例
2016/06/28 Python
Django数据库操作的实例(增删改查)
2017/09/04 Python
Python爬虫抓取技术的一些经验
2019/07/12 Python
手把手教你pycharm专业版安装破解教程(linux版)
2019/09/26 Python
法律专业应届本科毕业生求职信
2013/10/25 职场文书
工程班组长岗位职责
2013/12/30 职场文书
数控技术学生的自我评价
2014/02/15 职场文书
校园标语大全
2014/06/19 职场文书
高速铁道技术专业求职信
2014/08/09 职场文书
先进工作者事迹材料
2014/12/23 职场文书
驻村工作简报
2015/07/20 职场文书
军事理论课感想
2015/08/11 职场文书
Go缓冲channel和非缓冲channel的区别说明
2021/04/25 Golang
详解Js模块化的作用原理和方案
2021/04/29 Javascript