python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现在Linux系统下更改当前进程运行用户
Feb 04 Python
使用python检测主机存活端口及检查存活主机
Oct 12 Python
Python实现堆排序的方法详解
May 03 Python
Python实现的排列组合计算操作示例
Oct 13 Python
Python利用turtle库绘制彩虹代码示例
Dec 20 Python
Python3实现爬取指定百度贴吧页面并保存页面数据生成本地文档的方法
Apr 22 Python
Python语言进阶知识点总结
May 28 Python
Python使用type关键字创建类步骤详解
Jul 23 Python
浅谈matplotlib中FigureCanvasXAgg的用法
Jun 16 Python
ffmpeg+Python实现B站MP4格式音频与视频的合并示例代码
Oct 21 Python
python 递归相关知识总结
Mar 03 Python
Python anaconda安装库命令详解
Oct 16 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
php UTF8 文件的签名问题
2009/10/30 PHP
PHP array_multisort()函数的使用札记
2011/07/03 PHP
php使用curl模拟登录后采集页面的例子
2013/11/04 PHP
php使用mb_check_encoding检查字符串在指定的编码里是否有效
2013/11/07 PHP
浅谈mysql_query()函数的返回值问题
2016/09/05 PHP
php生成条形码的图片的实例详解
2017/09/13 PHP
javascript自定义右键弹出菜单实现方法
2015/05/25 Javascript
Bootstrap时间选择器datetimepicker和daterangepicker使用实例解析
2016/09/17 Javascript
一句jQuery代码实现返回顶部效果(简单实用)
2016/12/28 Javascript
jQuery动态生成表格及右键菜单功能示例
2017/01/13 Javascript
使用jquery datatable和bootsrap创建表格实例代码
2017/03/17 Javascript
总结JavaScript在IE9之前版本中内存泄露问题
2018/04/28 Javascript
js遍历添加栏目类添加css 再点击其它删除css【推荐】
2018/06/12 Javascript
使用JavaScript实现node.js中的path.join方法
2018/08/12 Javascript
JS实现求5的阶乘示例
2019/01/21 Javascript
jquery实现自定义树形表格的方法【自定义树形结构table】
2019/07/12 jQuery
小程序实现列表倒计时功能
2021/01/29 Javascript
Python扫描IP段查看指定端口是否开放的方法
2015/06/09 Python
Python中文分词实现方法(安装pymmseg)
2016/06/14 Python
python3利用tcp实现文件夹远程传输
2018/07/28 Python
python绘制简单彩虹图
2018/11/19 Python
python小程序实现刷票功能详解
2019/07/17 Python
django中瀑布流写法实例代码
2019/10/14 Python
Django中密码的加密、验密、解密操作
2019/12/19 Python
在django项目中导出数据到excel文件并实现下载的功能
2020/03/13 Python
推荐技术人员一款Python开源库(造数据神器)
2020/07/08 Python
python实现图片转字符画的完整代码
2021/02/21 Python
俄罗斯优惠券网站:BIGLION
2017/05/21 全球购物
办理退休介绍信
2014/01/09 职场文书
小学英语教学反思案例
2014/02/04 职场文书
机关门卫的岗位职责
2014/04/29 职场文书
社区灵活就业证明
2014/11/03 职场文书
开展党的群众路线教育实践活动工作总结
2014/11/05 职场文书
2016新年致辞
2015/08/01 职场文书
股东出资协议书
2016/03/21 职场文书
深入理解margin塌陷和margin合并的解决方案
2021/06/26 HTML / CSS