编程 Python

python反扒机制的5种解决方法

Posted in Python onFebruary 06, 2021

前言

反爬虫是网站为了维护自己的核心安全而采取的抑制爬虫的手段，反爬虫的手段有很多种，一般情况下除了百度等网站，反扒机制会常常更新以外。为了保持网站运行的高效，网站采取的反扒机制并不是太多，今天分享几个我在爬虫过程中遇到的反扒机制，并简单介绍其解决方式。

基于User-Agent反爬

简介：服务器后台对访问的User_Agent进行统计，单位时间内同一User_Agent访问的次数超过特定的阀值，则会被不同程度的封禁IP，从而造成无法进行爬虫的状况。

解决方法：

一 . 将常见的User-Agent放到ua_list中，以列表形式进行随机使用

代码示例：

python反扒机制的5种解决方法

二. 加载fake_useragent库，随机生成User-Agent添加到headers中

代码示例：

python反扒机制的5种解决方法

2 基于IP反爬

简介: 爬虫程序可能会在短时间内对指定的服务器发起高频的请求。后台服务器对访问进行统计，单位时间内同一IP访问的次数超过一个特定的值（阀值），就会不同程度的禁封IP，导致无法进行爬虫操作。

解决方法：使用代理池，并设定延迟访问

如何获取代理服务器？免费：西祠代理、快代理、goubanjia 收费：代理精灵等

代码示例：

python反扒机制的5种解决方法

3 基于cookie反扒

简介：网站会通过cookie跟踪你的访问过程，如果发现有爬虫行为会立刻中断你的访问，比如特别快的填写表单，或者短时间内浏览大量页面。而正确地处理cookie，又可以避免很多采集问题，建议在采集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

解决方法：

一手动处理

将cookie封装到headers字典中，将该字典作用到get/post方法的headers参数中

二自动处理

需要两次处理。第一次是为了捕获和存储cookie到session对象中，第二次就是用携带cookie的session进行请求发送，这次请求发送就是携带cookie发起的请求。可以跟requests一样调用get/post进行请求的发送。在使用session进行请求发送的过程中，如果产生了cookie，则cookie会被自动存储session对象中

代码示例：

#基于session自动处理
cookiesess = requests.Session() 
#该次请求只是为了捕获cookie存储到sess中
sess.get(url='https://xueqiu.com/',headers=headers)
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20367942&count=15&category=-1'
json_data = sess.get(url=url,headers=headers).json()json_data

4 图片懒加载

简介：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求数的技术就被称为“图片懒加载”。在网页源码中，在img标签中首先会使用一个“伪属性”（通常使用src2，original......）去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中，会动态将伪属性替换成src属性，完成图片的加载。

解决方法：通过细致观察页面的结构，发现图片的链接真正链的伪属性中，一般不在src中，而是src2中，xpath要使用该属性

示例代码：

python反扒机制的5种解决方法

5 Ajax动态加载

简介：从网页的 url 加载网页的源代码之后，会在浏览器里执行JavaScript程序。这些程序会加载出更多的内容，并把这些内容传输到网页中。这就是为什么有些网页直接爬它的URL时却没有数据的原因。现在这样的网站也越来越多。
解决方法:使用审查元素分析”请求“对应的链接(方法：右键→审查元素→Network→清空，点击”加载更多“，出现对应的GET链接寻找Type为text/html的，点击，查看get参数或者复制Request URL)，循环过程。如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json使用requests中的json进行解析，观察动态加载的规律，在请求头中对规律进行使用

抓包工具推荐:fiddler

到此这篇关于python反扒机制的5种解决方法的文章就介绍到这了,更多相关python反扒机制内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python反扒机制的5种解决方法

- Author -

其实还好啦

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python线程锁(thread)学习示例

Dec 04 Python

python迭代器与生成器详解

Mar 10 Python

Python实现的弹球小游戏示例

Aug 01 Python

python中利用zfill方法自动给数字前面补0

Apr 10 Python

python 定义给定初值或长度的list方法

Jun 23 Python

python3爬取数据至mysql的方法

Jun 26 Python

对Python+opencv将图片生成视频的实例详解

Jan 08 Python

Python的Tkinter点击按钮触发事件的例子

Jul 19 Python

树莓派3 搭建 django 服务器的实例

Aug 29 Python

python如何使用socketserver模块实现并发聊天

Dec 14 Python

Python进程的通信Queue、Pipe实例分析

Mar 30 Python

python help函数实例用法

Dec 06 Python

Python 爬取淘宝商品信息栏目的实现

Feb 06 #Python

解决pytorch下出现multi-target not supported at的一种可能原因

Feb 06 #Python

pytorch下的unsqueeze和squeeze的用法说明

Feb 06 #Python

一文带你掌握Pyecharts地理数据可视化的方法

Feb 06 #Python

解决pycharm不能自动保存在远程linux中的问题

Feb 06 #Python

Python第三方库安装缓慢的解决方法

Feb 06 #Python

python中threading和queue库实现多线程编程

Feb 06 #Python

You might like

在字符串中把网址改成超级链接

2006/10/09 PHP

php下实现折线图效果的代码

2007/04/28 PHP

Javascript 实现图片无缝滚动

2014/12/19 Javascript

javascript 动态修改css样式方法汇总(四种方法)

2015/08/27 Javascript

详解JavaScript对Date对象的操作问题(生成一个倒数7天的数组)

2015/10/01 Javascript

JavaScript编程的单例设计模讲解

2015/11/10 Javascript

浏览器检测JS代码(兼容目前各大主流浏览器)

2016/02/21 Javascript

JavaScript实现广告弹窗效果

2016/08/09 Javascript

Javascript 动态改变imput type属性

2016/11/01 Javascript

node.js版本管理工具n无效的原理和解决方法

2016/11/24 Javascript

vue select二级联动第二级默认选中第一个option值的实例

2018/01/10 Javascript

vue中简单弹框dialog的实现方法

2018/02/26 Javascript

详解Webpack-dev-server的proxy用法

2018/09/08 Javascript

layui表格返回的数据状态异常的解决方法

2019/09/10 Javascript

在Vue中使用Viser说明(基于AntV-G2可视化引擎)

2020/10/28 Javascript

[01:02:54]完美世界DOTA2联赛PWL S2 FTD vs GXR 第一场 11.22

2020/11/26 DOTA

Django实现一对多表模型的跨表查询方法

2018/12/18 Python

python paramiko利用sftp上传目录到远程的实例

2019/01/03 Python

python实现雪花飘落效果实例讲解

2019/06/18 Python

如何获取Python简单for循环索引

2019/11/21 Python

TensorFlow自定义损失函数来预测商品销售量

2020/02/05 Python

python 实现 hive中类似 lateral view explode的功能示例

2020/05/18 Python

Python面向对象实现方法总结

2020/08/12 Python

Python爬虫之Selenium警告框(弹窗)处理

2020/12/04 Python

python文件路径操作方法总结

2020/12/21 Python

SmartBuyGlasses比利时：购买品牌太阳镜和眼镜

2019/08/09 全球购物

计算机系毕业生推荐信

2013/11/06 职场文书

开学典礼演讲稿

2014/05/23 职场文书

大学生交通专业求职信

2014/09/01 职场文书

办护照工作证明

2014/10/01 职场文书

庆七一宣传标语

2014/10/08 职场文书

2014报到证办理个人委托书

2014/10/08 职场文书

2014年财务人员工作总结

2014/11/11 职场文书

公务员政审材料范文

2014/12/23 职场文书

Windows10下安装MySQL8

2021/04/06 MySQL

Jpa Specification如何实现and和or同时使用查询

2021/11/23 Java/Android