Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python tensorflow基于cnn实现手写数字识别
Jan 01 Python
python Opencv将图片转为字符画
Feb 19 Python
Python实现的建造者模式示例
Aug 06 Python
python学生管理系统开发
Jan 30 Python
python调用matlab的m自定义函数方法
Feb 18 Python
基于腾讯云服务器部署微信小程序后台服务(Python+Django)
May 08 Python
利用python在大量数据文件下删除某一行的例子
Aug 21 Python
python实现高斯判别分析算法的例子
Dec 09 Python
Python3将ipa包中的文件按大小排序
Apr 17 Python
Python轻量级web框架bottle使用方法解析
Jun 13 Python
Python通用唯一标识符uuid模块使用案例
Sep 10 Python
Python3+Django get/post请求实现教程详解
Feb 16 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
浅谈PHP中JSON数据操作
2015/07/01 PHP
PHP页面转UTF-8中文编码乱码的解决办法
2015/10/20 PHP
将光标定位于输入框最右侧实现代码
2012/12/04 Javascript
防止浏览器记住用户名及密码的简单实用方法
2013/04/22 Javascript
通过AJAX的JS、JQuery两种方式解析XML示例介绍
2013/09/23 Javascript
分享五个有用的jquery小技巧
2015/10/08 Javascript
JavaScritp添加url参数并将参数加入到url中及更改url参数的方法
2015/10/26 Javascript
jQuery解析json格式数据简单实例
2016/01/22 Javascript
AngularJS入门示例之Hello World详解
2017/01/04 Javascript
jquery精度计算代码 jquery指定精确小数位
2017/02/06 Javascript
深入理解Nodejs Global 模块
2017/06/03 NodeJs
Vue2.0用 watch 观察 prop 变化(不触发)
2017/09/08 Javascript
关于JavaScript语句后面的分号问题
2017/12/07 Javascript
详解vue中this.$emit()的返回值是什么
2019/04/07 Javascript
微信公众号生成新浪短网址的实现(快速生成)
2019/08/18 Javascript
Python实现115网盘自动下载的方法
2014/09/30 Python
fastcgi文件读取漏洞之python扫描脚本
2017/04/23 Python
python机器学习理论与实战(六)支持向量机
2018/01/19 Python
对Python3使运行暂停的方法详解
2019/02/18 Python
python中logging模块的一些简单用法的使用
2019/02/22 Python
Python进阶之@property动态属性的实现
2019/04/01 Python
Python何时应该使用Lambda函数
2019/07/02 Python
基于python二叉树的构造和打印例子
2019/08/09 Python
python实现通过flask和前端进行数据收发
2019/08/22 Python
如何给HTML标签中的文本设置修饰线
2019/11/18 HTML / CSS
Expedia马来西亚旅游网站:廉价酒店,度假村和航班预订
2016/07/26 全球购物
AC Lens:购买隐形眼镜
2017/02/26 全球购物
顶丰TOPPIK台湾官网:增发纤维假发,告别秃发困扰
2018/06/13 全球购物
Hunkemöller瑞士网上商店:欧洲最大的内衣品牌之一
2018/12/03 全球购物
菲律宾优惠券网站:MetroDeal
2019/04/12 全球购物
Janie and Jack美国官网:GAP旗下的高档童装品牌
2019/09/09 全球购物
介绍下WebSphere的安全性
2013/01/31 面试题
九月份红领巾广播稿
2014/01/22 职场文书
公司爱心捐款倡议书
2014/05/14 职场文书
通知范文怎么写
2015/04/16 职场文书
详解ZABBIX监控ESXI主机的问题
2022/06/21 Servers