浅谈Scrapy框架普通反爬虫机制的应对策略


Posted in Python onDecember 28, 2017

简单低级的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢,对服务器造成的负担也相对较小。

爬虫与反爬虫,这相爱相杀的一对,简直可以写出一部壮观的斗争史。而在大数据时代,数据就是金钱,很多企业都为自己的网站运用了反爬虫机制,防止网页上的数据被爬虫爬走。然而,如果反爬机制过于严格,可能会误伤到真正的用户请求;如果既要和爬虫死磕,又要保证很低的误伤率,那么又会加大研发的成本。

简单低级的爬虫速度快,伪装度低,如果没有反爬机制,它们可以很快的抓取大量数据,甚至因为请求过多,造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢,对服务器造成的负担也相对较小。所以,网站反爬的重点也是那种简单粗暴的爬虫,反爬机制也会允许伪装度高的爬虫,获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用Scrapy框架时,如何应对普通的反爬机制。

header检验

最简单的反爬机制,就是检查HTTP请求的Headers信息,包括User-Agent,Referer、Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本,在Scrapy中,通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表,然后新建一个random_user_agent文件:

class RandomUserAgentMiddleware(object): @classmethod defprocess_request(cls, request, spider): ua = random.choice(spider.settings['USER_AGENT_LIST']) if ua: request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中,随机选取一个真实浏览器的User-Agent。

Referer

Referer是检查此请求由哪里来,通常可以做图片的盗链判断。在Scrapy中,如果某个页面url是通过之前爬取的页面提取到,Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

Cookies

网站可能会检测Cookie中session_id的使用次数,如果超过限制,就触发反爬策略。所以可以在Scrapy中设置COOKIES_ENABLED=False让请求不带Cookies。

也有网站强制开启Cookis,这时就要麻烦一点了。可以另写一个简单的爬虫,定时向目标网站发送不带Cookies的请求,提取响应中Set-cookie字段信息并保存。爬取网页时,把存储起来的Cookies带入Headers中。

X-Forwarded-For

在请求头中添加X-Forwarded-For字段,将自己申明为一个透明的代理服务器,一些网站对代理服务器会手软一些。

X-Forwarded-For头一般格式如下

X-Forwarded-For:client1,proxy1,proxy2

这里将client1,proxy1设置为随机IP地址,把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改,很多网站并不会信任这个值。

限制IP的请求数量

如果某一IP的请求速度过快,就触发反爬机制。当然可以通过放慢爬取速度绕过,这要以爬取时间大大增长为代价。另一种方法就是添加代理。

很简单,在下载器中间件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP?

可以自己写一个IP代理获取和维护系统,定时从各种披露免费代理IP的网站爬取免费IP代理,然后定时扫描这些IP和端口是否可用,将不可用的代理IP及时清理。这样就有一个动态的代理库,每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显,开发代理获取和维护系统本身就很费时费力,并且这种免费代理的数量并不多,而且稳定性都比较差。如果必须要用到代理,也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在requests库中添加带认证的代理很简单,

proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

然而Scrapy不支持这种认证方式,需要将认证信息base64编码后,加入Headers的Proxy-Authorization字段:

importbase64 # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1] # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载

现在越来越多的网站使用ajax动态加载内容,这时候可以先截取ajax请求分析一下,有可能根据ajax请求构造出相应的API请求的URL就可以直接获取想要的内容,通常是json格式,反而还不用去解析HTML。

然而,很多时候ajax请求都会经过后端鉴权,不能直接构造URL获取。这时就可以通过PhantomJS+Selenium模拟浏览器行为,抓取经过js渲染后的页面。

需要注意的是,使用Selenium后,请求不再由Scrapy的Downloader执行,所以之前添加的请求头等信息都会失效,需要在Selenium中重新添加

headers = {...} for key, valuein headers.iteritems(): webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外,调用PhantomJs需要指定PhantomJs的可执行文件路径,通常是将该路径添加到系统的path路径,让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行,而crontab中的环境变量和系统的环境变量不同,所以就加载不到PhamtonJs需要的路径,所以最好是在申明时指定路径:

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

总结

以上就是本文关于浅谈Scrapy框架普通反爬虫机制的应对策略的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:

如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
布同自制Python函数帮助查询小工具
Mar 13 Python
深入解析Python中的上下文管理器
Jun 28 Python
Python实现按特定格式对文件进行读写的方法示例
Nov 30 Python
Python利用matplotlib.pyplot绘图时如何设置坐标轴刻度
Apr 09 Python
python实现百度语音识别api
Apr 10 Python
django 多数据库配置教程
May 30 Python
[原创]Python入门教程3. 列表基本操作【定义、运算、常用函数】
Oct 30 Python
使用浏览器访问python写的服务器程序
Oct 10 Python
python matplotlib如何给图中的点加标签
Nov 14 Python
如何使用Python破解ZIP或RAR压缩文件密码
Jan 09 Python
Jupyter notebook如何实现指定浏览器打开
May 13 Python
如何解决flask修改静态资源后缓存文件不能及时更改问题
Aug 02 Python
scrapy爬虫实例分享
Dec 28 #Python
Python解决N阶台阶走法问题的方法分析
Dec 28 #Python
Python实现嵌套列表去重方法示例
Dec 28 #Python
Python登录并获取CSDN博客所有文章列表代码实例
Dec 28 #Python
python 寻找优化使成本函数最小的最优解的方法
Dec 28 #Python
python机器学习案例教程——K最近邻算法的实现
Dec 28 #Python
Python实现螺旋矩阵的填充算法示例
Dec 28 #Python
You might like
日本十大科幻动漫 宇宙骑士垫底,第一已成经典
2020/03/04 日漫
PHP判断远程url是否有效的几种方法小结
2011/10/08 PHP
PHP图片等比例缩放生成缩略图函数分享
2014/06/10 PHP
新浪微博OAuth认证和储存的主要过程详解
2015/03/27 PHP
php实现的递归提成方案实例
2015/11/14 PHP
php生成curl命令行的方法
2015/12/14 PHP
深入解析PHP的Yii框架中的缓存功能
2016/03/29 PHP
PHP如何将XML转成数组
2016/04/04 PHP
PHP5.4起内置web服务器使用方法
2016/08/09 PHP
Laravel框架Blade模板简介及模板继承用法分析
2019/12/03 PHP
使用JSON.parse将json字符串转换成json对象的时候会出错
2014/09/04 Javascript
jQuery中clearQueue()方法用法实例
2014/12/29 Javascript
Bootstrap Navbar Component实现响应式导航
2016/10/08 Javascript
jQuery联动日历的实例解析
2016/12/02 Javascript
关于在vue-cli中使用微信自动登录和分享的实例
2017/06/22 Javascript
详解微信第三方小程序代开发
2017/06/23 Javascript
vue 设置 input 为不可以编辑的实现方法
2019/09/19 Javascript
Layui 解决表格异步调用后台分页的问题
2019/10/26 Javascript
python在Windows8下获取本机ip地址的方法
2015/03/14 Python
bat和python批量重命名文件的实现代码
2016/05/19 Python
Python时间戳使用和相互转换详解
2017/12/11 Python
python 产生token及token验证的方法
2018/12/26 Python
django创建简单的页面响应实例教程
2019/09/06 Python
python实现用类读取文件数据并计算矩形面积
2020/01/18 Python
Tensorflow 定义变量,函数,数值计算等名字的更新方式
2020/02/10 Python
Python爬虫+tkinter界面实现历史天气查询的思路详解
2021/02/22 Python
通过css3动画和opacity透明度实现呼吸灯效果
2019/08/09 HTML / CSS
整理HTML5中表单的常用属性及新属性
2016/02/19 HTML / CSS
原装进口全世界:天猫国际
2016/08/03 全球购物
欧尚俄罗斯网上超市:Auchan俄罗斯
2018/05/03 全球购物
可以使用抽象函数重写基类中的虚函数吗
2013/06/02 面试题
中文专业毕业生自荐信
2013/10/28 职场文书
学校办公室主任职责
2013/12/27 职场文书
初中英语课后反思
2014/04/25 职场文书
给校长的建议书500字
2014/05/15 职场文书
关于antd tree 和父子组件之间的传值问题(react 总结)
2021/06/02 Javascript