python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python线程池的实现实例
Nov 18 Python
Python中遇到的小问题及解决方法汇总
Jan 11 Python
解决Scrapy安装错误:Microsoft Visual C++ 14.0 is required...
Oct 01 Python
Python实现感知器模型、两层神经网络
Dec 19 Python
Python实现的维尼吉亚密码算法示例
Apr 12 Python
用python处理图片实现图像中的像素访问
May 04 Python
基于python进行桶排序与基数排序的总结
May 29 Python
python实现输入三角形边长自动作图求面积案例
Apr 12 Python
jupyter notebook 添加kernel permission denied的操作
Apr 21 Python
分享PyCharm最新激活码(真永久激活方法)不用每月找安装参数或最新激活码了
Dec 27 Python
python中使用np.delete()的实例方法
Feb 01 Python
什么是Python装饰器?如何定义和使用?
Apr 11 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
PHP5中GD库生成图形验证码(有汉字)
2013/07/28 PHP
smarty模板引擎中内建函数if、elseif和else的使用方法
2015/01/22 PHP
浅谈PHP中output_buffering
2015/07/13 PHP
PHP CURL或file_get_contents获取网页标题的代码及两者效率的稳定性问题
2015/11/30 PHP
PHP处理bmp格式图片的方法分析
2017/07/04 PHP
Laravel 5.5基于内置的Auth模块实现前后台登陆详解
2017/12/21 PHP
Jquery css函数用法(判断标签是否拥有某属性)
2011/05/28 Javascript
酷炫jQuery全屏3D焦点图动画效果
2016/03/22 Javascript
Javascript必知必会(四)js类型转换
2016/06/08 Javascript
Bootstrap树形菜单插件TreeView.js使用方法详解
2016/11/01 Javascript
基于JQuery实现的跑马灯效果(文字无缝向上翻动)
2016/12/02 Javascript
微信公众号开发 实现点击返回按钮就返回到聊天界面
2016/12/15 Javascript
jQuery插件JWPlayer视频播放器用法实例分析
2017/01/11 Javascript
Nodejs实现短信验证码功能
2017/02/09 NodeJs
判断横屏竖屏(三种)
2017/02/13 Javascript
js下载文件并修改文件名
2017/05/08 Javascript
vue-cli脚手架搭建的项目去除eslint验证的方法
2018/09/29 Javascript
JS中注入eval, Function等系统函数截获动态代码
2019/04/03 Javascript
OpenLayers加载缩放控件使用方法详解
2020/09/25 Javascript
Python实现信用卡系统(支持购物、转账、存取钱)
2016/06/24 Python
Python实现mysql数据库更新表数据接口的功能
2017/11/19 Python
Python将list中的string批量转化成int/float的方法
2018/06/26 Python
Python OpenCV处理图像之图像直方图和反向投影
2018/07/10 Python
Django框架模型简单介绍与使用分析
2019/07/18 Python
python map比for循环快在哪
2020/09/21 Python
python安装及变量名介绍详解
2020/12/12 Python
html5 Canvas画图教程(6)—canvas里画曲线之arcTo方法
2013/01/09 HTML / CSS
中国最大的团购网站:聚划算
2016/09/21 全球购物
Shopping happy life西班牙:以最优惠的价格提供最好的时尚配饰
2020/03/13 全球购物
波兰在线运动商店:YesSport
2020/07/23 全球购物
2015年幼儿园毕业感言
2014/02/12 职场文书
平面设计求职信
2014/03/10 职场文书
技术员岗位职责
2015/02/04 职场文书
工厂清洁工岗位职责
2015/02/14 职场文书
公司禁烟通知
2015/04/23 职场文书
毕业生自荐求职信书写的技巧
2019/08/26 职场文书