python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python完全新手教程
Feb 08 Python
Python实现给文件添加内容及得到文件信息的方法
May 28 Python
如何利用Fabric自动化你的任务
Oct 20 Python
Python双精度浮点数运算并分行显示操作示例
Jul 21 Python
python基础教程项目五之虚拟茶话会
Apr 02 Python
Python 实现「食行生鲜」签到领积分功能
Sep 26 Python
Django组件之cookie与session的使用方法
Jan 10 Python
详解Python3之数据指纹MD5校验与对比
Jun 11 Python
基于python读取.mat文件并取出信息
Dec 16 Python
Python3 main函数使用sys.argv传入多个参数的实现
Dec 25 Python
详解python datetime模块
Aug 17 Python
python实现图片,视频人脸识别(opencv版)
Nov 18 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
类的另类用法--数据的封装
2006/10/09 PHP
解决dede生成静态页和动态页转换的一些问题,及火车采集入库生成动态的办法
2007/03/29 PHP
在windows服务器开启php的gd库phpinfo中未发现
2013/01/13 PHP
PHP中数据库单例模式的实现代码分享
2014/08/21 PHP
PHP 配置后台登录以及模板引入
2017/01/24 PHP
BAT及各大互联网公司2014前端笔试面试题--JavaScript篇
2014/10/29 Javascript
JavaScript版的TwoQueues缓存模型
2014/12/29 Javascript
jQuery使用attr()方法同时设置多个属性值用法实例
2015/03/26 Javascript
在JavaScript中使用开平方根的sqrt()方法
2015/06/15 Javascript
探寻JavaScript中this指针指向
2016/04/23 Javascript
jQuery实现鼠标滚动图片延迟加载效果附源码下载
2016/06/28 Javascript
js中json处理总结之JSON.parse
2016/10/14 Javascript
详解HTTPS 的原理和 NodeJS 的实现
2017/07/04 NodeJs
11行JS代码制作二维码生成功能
2018/03/09 Javascript
vue 列表页跳转详情页获取id以及详情页通过id获取数据
2019/03/27 Javascript
微信头像地址失效踩坑记附带解决方案
2019/09/23 Javascript
Weex开发之地图篇的具体使用
2019/10/16 Javascript
[02:14]完美“圣”典2016风云人物:xiao8专访
2016/12/01 DOTA
[05:26]TI10典藏宝瓶套装外观展示
2020/07/03 DOTA
python 实现手机自动拨打电话的方法(通话压力测试)
2019/08/08 Python
python计算二维矩形IOU实例
2020/01/18 Python
pytorch torchvision.ImageFolder的用法介绍
2020/02/20 Python
Python内存映射文件读写方式
2020/04/24 Python
基于Python实现全自动下载抖音视频
2020/11/06 Python
美国高端婴童品牌:Hanna Andersson
2016/10/30 全球购物
Windows和Linux动态库应用异同
2016/04/17 面试题
综合实践教学反思
2014/01/31 职场文书
行政副总岗位职责
2014/02/23 职场文书
推普周活动总结
2014/08/28 职场文书
学习朴航瑛老师爱岗敬业先进事迹思想汇报
2014/09/17 职场文书
老乡聚会通知
2015/04/23 职场文书
十八大观后感
2015/06/12 职场文书
解除合同协议书范本
2016/03/21 职场文书
Go Gin实现文件上传下载的示例代码
2021/04/02 Golang
为Java项目添加Redis缓存的方法
2021/05/18 Redis
MySQL中一条update语句是如何执行的
2022/03/16 MySQL