python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 中的列表解析和生成表达式
Mar 10 Python
python在windows下创建隐藏窗口子进程的方法
Jun 04 Python
Python中logging.NullHandler 的使用教程
Nov 29 Python
Python常见数据结构之栈与队列用法示例
Jan 14 Python
python 实现读取一个excel多个sheet表并合并的方法
Feb 12 Python
java中的控制结构(if,循环)详解
Jun 26 Python
pandas的to_datetime时间转换使用及学习心得
Aug 11 Python
python实现人脸签到系统
Apr 13 Python
详解Python高阶函数
Aug 15 Python
在Windows下安装配置CPU版的PyTorch的方法
Apr 02 Python
Python日志模块logging用法
Jun 05 Python
Python可视化神器pyecharts之绘制地理图表练习
Jul 07 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
日本因肺炎疫情影响,这几部动漫推延播放!
2020/03/03 日漫
基于HTTP长连接的"服务器推"技术的php 简易聊天室
2009/10/31 PHP
ThinkPHP在新浪SAE平台的部署实例
2014/10/31 PHP
Laravel获取所有的数据库表及结构的方法
2019/10/10 PHP
9个javascript语法高亮插件 推荐
2009/07/18 Javascript
两种WEB下的模态对话框 (asp.net或js的分别实现)
2009/12/02 Javascript
javascript setTimeout和setInterval计时的区别详解
2013/06/21 Javascript
onbeforeunload与onunload事件异同点总结
2013/06/24 Javascript
Knockout visible绑定使用方法
2013/11/15 Javascript
JS循环遍历JSON数据的方法
2014/07/08 Javascript
jquery实现的缩略图预览滑块实例
2015/06/25 Javascript
jquery 实现输入邮箱时自动补全下拉提示功能
2015/10/04 Javascript
深入浅析NodeJs并发异步的回调处理
2015/12/21 NodeJs
leaflet的开发入门教程
2016/11/17 Javascript
jQuery实现鼠标经过显示动画边框特效
2017/03/24 jQuery
基于require.js的使用(实例讲解)
2017/09/07 Javascript
详解Angular5路由传值方式及其相关问题
2018/04/28 Javascript
vue项目在安卓低版本机显示空白的原因分析(两种)
2018/09/04 Javascript
Vue项目中配置pug解析支持
2019/05/10 Javascript
Vue3项目打包后部署到服务器 请求不到后台接口解决方法
2020/02/06 Javascript
vue 监听窗口变化对页面部分元素重新渲染操作
2020/07/28 Javascript
[51:10]VP vs VGJ.S 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
python共享引用(多个变量引用)示例代码
2013/12/04 Python
Python 判断 有向图 是否有环的实例讲解
2018/02/01 Python
Python实现的自定义多线程多进程类示例
2018/03/23 Python
Django添加feeds功能的示例
2018/08/07 Python
python区块及区块链的开发详解
2019/07/03 Python
用Python生成HTML表格的方法示例
2020/03/06 Python
大韩航空官方网站:Korean Air
2017/10/25 全球购物
HEMA英国:荷兰原创设计
2018/08/28 全球购物
Pandora西班牙官方商店:PandoraShop.es
2020/10/05 全球购物
新员工欢迎词
2014/01/12 职场文书
诚实守信道德模范事迹材料
2014/08/15 职场文书
安全伴我行演讲稿
2014/09/04 职场文书
2015年中秋节演讲稿
2015/03/20 职场文书
感谢信
2019/04/11 职场文书