python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
新手该如何学python怎么学好python?
Oct 07 Python
Python threading多线程编程实例
Sep 18 Python
使用Python的Django框架实现事务交易管理的教程
Apr 20 Python
举例讲解Python中的迭代器、生成器与列表解析用法
Mar 20 Python
Python数据结构与算法之字典树实现方法示例
Dec 13 Python
django的model操作汇整详解
Jul 26 Python
详解基于python-django框架的支付宝支付案例
Sep 23 Python
将tensorflow模型打包成PB文件及PB文件读取方式
Jan 23 Python
Python pip配置国内源的方法
Feb 14 Python
解决springboot yml配置 logging.level 报错问题
Feb 21 Python
Python实现链表反转的方法分析【迭代法与递归法】
Feb 22 Python
学习Python爬虫的几点建议
Aug 05 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
PHP 变量定义和变量替换的方法
2009/07/30 PHP
php调用dll的实例操作动画与代码分享
2012/08/14 PHP
使用配置类定义Codeigniter全局变量
2014/06/12 PHP
PHP实现的汉字拼音转换和公历农历转换类及使用示例
2014/07/01 PHP
php+ajax无刷新上传图片的实现方法
2016/12/06 PHP
php计算多个集合的笛卡尔积实例详解
2017/02/16 PHP
jQuery AJAX回调函数this指向问题
2010/02/08 Javascript
浅析JavaScript动画
2015/06/10 Javascript
Javascript控制div属性动态变化实例分析
2015/10/08 Javascript
JS组件Bootstrap Table布局详解
2016/05/27 Javascript
javascript学习笔记_浅谈基础语法,类型,变量
2016/09/19 Javascript
使用vue.js2.0 + ElementUI开发后台管理系统详细教程(一)
2017/01/21 Javascript
jQuery实现分页功能(含ajax请求、后台数据、附完整demo)
2017/04/03 jQuery
JS+HTML5实现获取手机验证码倒计时按钮
2018/08/08 Javascript
NodeJS加密解密及node-rsa加密解密用法详解
2018/10/12 NodeJs
[49:08]Secret vs VP 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
Python交换变量
2008/09/06 Python
Python实现的简单发送邮件脚本分享
2014/11/07 Python
Python中使用logging模块打印log日志详解
2015/04/05 Python
python 内置函数filter
2017/06/01 Python
python之matplotlib学习绘制动态更新图实例代码
2018/01/23 Python
Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例
2018/03/23 Python
python基于http下载视频或音频
2018/06/20 Python
详解Python 装饰器执行顺序迷思
2018/08/08 Python
python 通过视频url获取视频的宽高方式
2019/12/10 Python
使用Python构造hive insert语句说明
2020/06/06 Python
tensorflow 2.1.0 安装与实战教程(CASIA FACE v5)
2020/06/30 Python
OpenCV图片漫画效果的实现示例
2020/08/18 Python
python 自动识别并连接串口的实现
2021/01/19 Python
香港迪士尼乐园酒店预订:Hong Kong Disneyland Hotels
2017/05/02 全球购物
家庭户外服装:Hawkshead
2017/11/02 全球购物
员工拾金不昧表扬信
2014/01/09 职场文书
餐饮采购员岗位职责
2014/03/15 职场文书
幼儿园教师心得体会范文
2016/01/21 职场文书
Golang 使用Map实现去重与set的功能操作
2021/04/29 Golang
为Centos安装指定版本的Docker
2022/04/01 Servers