python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python正则表达式中的括号匹配问题
Dec 14 Python
详解Python中的各种函数的使用
May 24 Python
Python插件virtualenv搭建虚拟环境
Nov 20 Python
从头学Python之编写可执行的.py文件
Nov 28 Python
numpy中实现ndarray数组返回符合特定条件的索引方法
Apr 17 Python
基于Django与ajax之间的json传输方法
May 29 Python
对pandas的层次索引与取值的新方法详解
Nov 06 Python
使用pycharm设置控制台不换行的操作方法
Jan 19 Python
python判断一个对象是否可迭代的例子
Jul 22 Python
python将时分秒转换成秒的实例
Dec 07 Python
jupyter notebook参数化运行python方式
Apr 10 Python
django 利用Q对象与F对象进行查询的实现
May 15 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
PHP_MySQL教程-第一天
2007/03/18 PHP
PHP中使用循环实现的金字塔图形
2014/11/08 PHP
php实现的任意进制互转类分享
2015/07/07 PHP
thinkphp3.x自定义Action、Model及View的简单实现方法
2016/05/19 PHP
javascript jQuery $.post $.ajax用法
2008/07/09 Javascript
js检验密码强度(低中高)附图
2014/06/05 Javascript
js设置cookie过期当前时间减去一秒相当于立即过期
2014/09/04 Javascript
js判断复选框是否选中及选中个数的实现代码
2016/05/30 Javascript
JS模拟实现方法重载示例
2016/08/03 Javascript
jQuery实现的tab标签切换效果示例
2016/09/05 Javascript
获取IE浏览器Cookie信息的方法
2017/01/23 Javascript
vue-dialog的弹出层组件
2020/05/25 Javascript
jQuery实现简单的抽奖游戏
2017/05/05 jQuery
vue不通过路由直接获取url中参数的方法示例
2017/08/24 Javascript
Node.js搭建小程序后台服务
2018/01/03 Javascript
vue指令做滚动加载和监听等
2019/05/26 Javascript
JS中的算法与数据结构之列表(List)实例详解
2019/08/16 Javascript
python单线程实现多个定时器示例
2014/03/30 Python
Django查找网站项目根目录和对正则表达式的支持
2015/07/15 Python
解决pycharm运行出错,代码正确结果不显示的问题
2018/11/30 Python
Django实现web端tailf日志文件功能及实例详解
2019/07/28 Python
tensorflow使用range_input_producer多线程读取数据实例
2020/01/20 Python
HTML5 Canvas+JS控制电脑或手机上的摄像头实例
2014/05/03 HTML / CSS
美国内衣品牌:Leonisa
2016/08/14 全球购物
巴西网上药店:Drogaria Araujo
2021/01/06 全球购物
XML文档定义有几种形式?它们之间有何本质区别?解析XML文档有哪几种方式?
2016/01/12 面试题
电气技术员岗位职责
2013/11/19 职场文书
元旦寄语大全
2014/04/10 职场文书
德能勤绩廉个人总结
2015/02/14 职场文书
后勤个人工作总结
2015/02/28 职场文书
班干部学习委员竞选稿
2015/11/20 职场文书
2016年全国爱眼日宣传教育活动总结
2016/04/05 职场文书
浅析InnoDB索引结构
2021/04/05 MySQL
Linux系统下安装PHP7.3版本
2021/06/26 PHP
Java无向树分析 实现最小高度树
2022/04/09 Javascript
Android 中的类文件和类加载器详情
2022/06/05 Java/Android