python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python简单的函数定义和用法实例
May 07 Python
Python3实现从指定路径查找文件的方法
May 22 Python
Django查找网站项目根目录和对正则表达式的支持
Jul 15 Python
python与caffe改变通道顺序的方法
Aug 04 Python
使用Python向DataFrame中指定位置添加一列或多列的方法
Jan 29 Python
Python日志无延迟实时写入的示例
Jul 11 Python
使用Python代码实现Linux中的ls遍历目录命令的实例代码
Sep 07 Python
Pytorch修改ResNet模型全连接层进行直接训练实例
Sep 10 Python
关于tf.nn.dynamic_rnn返回值详解
Jan 20 Python
基于Python实现视频的人脸融合功能
Jun 12 Python
Python3如何在服务器打印资产信息
Aug 27 Python
python控制台打印log输出重复的解决方法
May 14 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
php数字游戏 计算24算法
2012/06/10 PHP
个人写的PHP验证码生成类分享
2014/08/21 PHP
php微信高级接口调用方法(自定义菜单接口、客服接口、二维码)
2016/11/28 PHP
微信公众号开发之获取位置信息php代码
2018/06/13 PHP
Laravel 6 将新增为指定队列任务设置中间件的功能
2019/08/06 PHP
Laravel登录失败次数限制的实现方法
2020/08/26 PHP
jQuery中的常用事件总结
2009/12/27 Javascript
使用dynatrace-ajax跟踪JavaScript的性能
2010/04/12 Javascript
jquery 3D球状导航的文章分类
2010/07/06 Javascript
javascript基本类型详解
2014/11/28 Javascript
Nodejs学习笔记之NET模块
2015/01/13 NodeJs
使用基于Node.js的构建工具Grunt来发布ASP.NET MVC项目
2016/02/15 Javascript
BootstrapTable与KnockoutJS相结合实现增删改查功能【一】
2016/05/10 Javascript
angularjs的select使用及默认选中设置
2017/04/08 Javascript
JavaScript函数中的this四种绑定形式
2017/08/15 Javascript
详解微信小程序支付流程与梳理
2019/07/16 Javascript
深入理解webpack process.env.NODE_ENV配置
2020/02/23 Javascript
Vue 中如何将函数作为 props 传递给组件的实现代码
2020/05/12 Javascript
解决echarts vue数据更新,视图不更新问题(echarts嵌在vue弹框中)
2020/07/20 Javascript
JavaScript中的函数式编程详解
2020/08/22 Javascript
利用python模拟sql语句对员工表格进行增删改查
2017/07/05 Python
Tensorflow实现卷积神经网络用于人脸关键点识别
2018/03/05 Python
python分治法求二维数组局部峰值方法
2018/04/03 Python
Python对多属性的重复数据去重实例
2018/04/18 Python
基于numpy中数组元素的切片复制方法
2018/11/15 Python
Python函数中不定长参数的写法
2019/02/13 Python
pytorch: Parameter 的数据结构实例
2019/12/31 Python
python怎么自定义捕获错误
2020/06/29 Python
使用canvas实现黑客帝国数字雨效果
2020/01/02 HTML / CSS
节约用电标语
2014/06/17 职场文书
机械设备与数控技术专业求职信
2014/08/10 职场文书
学习十八届四中全会精神思想汇报
2014/10/23 职场文书
学校通报表扬范文
2015/05/04 职场文书
小学生大队委竞选稿
2015/11/20 职场文书
为什么说餐饮很难做,是因为你不了解这些新规则
2019/08/20 职场文书
pytorch分类模型绘制混淆矩阵以及可视化详解
2022/04/07 Python