编程 Python

浅谈Scrapy框架普通反爬虫机制的应对策略

Posted in Python onDecember 28, 2017

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求;如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用Scrapy框架时，如何应对普通的反爬机制。

header检验

最简单的反爬机制，就是检查HTTP请求的Headers信息，包括User-Agent,Referer、Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本，在Scrapy中，通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件：

class RandomUserAgentMiddleware(object): @classmethod defprocess_request(cls, request, spider): ua = random.choice(spider.settings['USER_AGENT_LIST']) if ua: request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的User-Agent。

Referer

Referer是检查此请求由哪里来，通常可以做图片的盗链判断。在Scrapy中，如果某个页面url是通过之前爬取的页面提取到，Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

Cookies

网站可能会检测Cookie中session_id的使用次数，如果超过限制，就触发反爬策略。所以可以在Scrapy中设置COOKIES_ENABLED=False让请求不带Cookies。

也有网站强制开启Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带Cookies的请求，提取响应中Set-cookie字段信息并保存。爬取网页时，把存储起来的Cookies带入Headers中。

X-Forwarded-For

在请求头中添加X-Forwarded-For字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些。

X-Forwarded-For头一般格式如下

X-Forwarded-For:client1,proxy1,proxy2

这里将client1，proxy1设置为随机IP地址，把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改，很多网站并不会信任这个值。

限制IP的请求数量

如果某一IP的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理。

很简单，在下载器中间件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP?

可以自己写一个IP代理获取和维护系统，定时从各种披露免费代理IP的网站爬取免费IP代理，然后定时扫描这些IP和端口是否可用，将不可用的代理IP及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在requests库中添加带认证的代理很简单，

proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

然而Scrapy不支持这种认证方式，需要将认证信息base64编码后，加入Headers的Proxy-Authorization字段：

importbase64 # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1] # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载

现在越来越多的网站使用ajax动态加载内容，这时候可以先截取ajax请求分析一下，有可能根据ajax请求构造出相应的API请求的URL就可以直接获取想要的内容，通常是json格式，反而还不用去解析HTML。

然而，很多时候ajax请求都会经过后端鉴权，不能直接构造URL获取。这时就可以通过PhantomJS+Selenium模拟浏览器行为，抓取经过js渲染后的页面。

需要注意的是，使用Selenium后，请求不再由Scrapy的Downloader执行，所以之前添加的请求头等信息都会失效，需要在Selenium中重新添加

headers = {...} for key, valuein headers.iteritems(): webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外，调用PhantomJs需要指定PhantomJs的可执行文件路径，通常是将该路径添加到系统的path路径，让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行，而crontab中的环境变量和系统的环境变量不同，所以就加载不到PhamtonJs需要的路径，所以最好是在申明时指定路径：

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

总结

以上就是本文关于浅谈Scrapy框架普通反爬虫机制的应对策略的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

浅谈Scrapy框架普通反爬虫机制的应对策略

- Author -

gxm

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

把项目从Python2.x移植到Python3.x的经验总结

Apr 20 Python

Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法

Apr 24 Python

python回调函数用法实例分析

May 09 Python

Python文件夹与文件的相关操作(推荐)

Jul 25 Python

Django框架模板文件使用及模板文件加载顺序分析

May 23 Python

使用python实现滑动验证码功能

Aug 05 Python

wxPython+Matplotlib绘制折线图表

Nov 19 Python

python飞机大战 pygame游戏创建快速入门详解

Dec 17 Python

sklearn线性逻辑回归和非线性逻辑回归的实现

Jun 09 Python

python让函数不返回结果的方法

Jun 22 Python

用ldap作为django后端用户登录验证的实现

Dec 07 Python

Python基础之操作MySQL数据库

May 06 Python

scrapy爬虫实例分享

Dec 28 #Python

Python解决N阶台阶走法问题的方法分析

Dec 28 #Python

Python实现嵌套列表去重方法示例

Dec 28 #Python

Python登录并获取CSDN博客所有文章列表代码实例

Dec 28 #Python

python 寻找优化使成本函数最小的最优解的方法

Dec 28 #Python

python机器学习案例教程——K最近邻算法的实现

Dec 28 #Python

Python实现螺旋矩阵的填充算法示例

Dec 28 #Python

You might like

php页面防重复提交方法总结

2013/11/25 PHP

php页面,mysql数据库转utf-8乱码,utf-8编码问题总结

2015/08/27 PHP

Zend Framework教程之Zend_Registry对象用法分析

2016/03/22 PHP

php 二维数组时间排序实现代码

2016/11/19 PHP

php 处理png图片白色背景色改为透明色的实例代码

2018/12/10 PHP

使用Laravel中的查询构造器实现增删改查功能

2019/09/03 PHP

关于Curl在Swoole协程中的解决方案详析

2019/09/12 PHP

jQuery用unbind方法去掉hover事件及其他方法介绍

2013/03/18 Javascript

js中的this关键字详解

2013/09/25 Javascript

Jquery 获取指定标签的对象及属性的设置与移除

2014/05/29 Javascript

jQuery插件dataTables添加序号列的方法

2016/07/06 Javascript

基于JavaScript实现鼠标向下滑动加载div的代码

2016/08/31 Javascript

Vue响应式添加、修改数组和对象的值

2017/03/20 Javascript

ES6新特性之Object的变化分析

2017/03/31 Javascript

JavaScript实现二叉树定义、遍历及查找的方法详解

2017/12/20 Javascript

Webpack path与publicPath的区别详解

2018/05/03 Javascript

Openlayers实现地图全屏显示

2020/09/28 Javascript

python使用paramiko实现远程拷贝文件的方法

2016/04/18 Python

python操作列表的函数使用代码详解

2017/12/28 Python

对python中的乘法dot和对应分量相乘multiply详解

2018/11/14 Python

Python实现实时数据采集新型冠状病毒数据实例

2020/02/04 Python

PyTorch中model.zero_grad()和optimizer.zero_grad()用法

2020/06/24 Python

Python列表嵌套常见坑点及解决方案

2020/09/30 Python

pip 20.3 新版本发布!即将抛弃 Python 2.x(推荐)

2020/12/16 Python

瑞典多品牌连锁店：Johnells

2021/01/13 全球购物

小学门卫岗位职责

2013/12/17 职场文书

优秀干部获奖感言

2014/01/31 职场文书

大学生职业生涯规划书汇总

2014/03/20 职场文书

2014年十一国庆向国旗敬礼寄语

2014/04/11 职场文书

高一学生评语大全

2014/04/25 职场文书

敬老模范事迹

2014/05/21 职场文书

财务会计求职信范文

2015/03/20 职场文书

2015年酒店销售部工作总结

2015/07/24 职场文书

开业典礼致辞

2015/07/29 职场文书

Go 实现英尺和米的简单单位换算方式

2021/04/29 Golang

React四级菜单的实现

2022/04/08 Javascript