编程 Python

python解决网站的反爬虫策略总结

Posted in Python onOctober 26, 2016

本文详细介绍了网站的反爬虫策略，在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。

一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装header。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。[这种防爬，需要有足够多的ip来应对]

（1）、大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}

proxy_support=urllib.request.ProxyHandler({})
2.定制、创建一个opener

opener=urllib.request.build_opener(proxy_support)
3a.安装opener

urllib.request.install_opener(opener)
3b.调用opener

opener.open(url)

用大量代理随机请求目标网站，应对反爬虫

#! /usr/bin/env python3.4
#-*- coding:utf-8 -*-
#__author__ == "tyomcat"


import urllib.request
import random
import re

url='http://www.whatismyip.com.tw'
iplist=['121.193.143.249:80','112.126.65.193:80','122.96.59.104:82','115.29.98.139:9999','117.131.216.214:80','116.226.243.166:8118','101.81.22.21:8118','122.96.59.107:843']

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

pattern = re.compile('<h1>(.*?)</h1>.*?<h2>(.*?)</h2>')
iterms=re.findall(pattern,html)
for item in iterms:
  print(item[0]+":"+item[1])

（2）、对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。[评论：对于账户做防爬限制，一般难以应对，随机几秒请求也往往可能被封，如果能有多个账户，切换使用，效果更佳]

3、动态页面的反爬虫

上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过Java生成的。

解决方案：Selenium+PhantomJS

Selenium：自动化web测试解决方案，完全模拟真实的浏览器环境，完全模拟基本上所有的用户操作

PhantomJS ：一个没有图形界面的浏览器

获取淘宝妹妹的个人详情地址：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
#__author__ == "tyomcat"

from selenium import webdriver
import time
import re

drive = webdriver.PhantomJS(executable_path='phantomjs-2.1.1-linux-x86_64/bin/phantomjs')
drive.get('https://mm.taobao.com/self/model_info.htm?user_id=189942305&is_coment=false')

time.sleep(5)

pattern = re.compile(r'<div.*?mm-p-domain-info">.*?class="mm-p-info-cell clearfix">.*?<li>.*?<label>(.*?)</label><span>(.*?)</span>',re.S)
html=drive.page_source.encode('utf-8','ignore')
items=re.findall(pattern,html)
for item in items:
  print item[0],'http:'+item[1]
drive.close()

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

python解决网站的反爬虫策略总结

- Author -

tyomcat

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python处理json数据中的中文

Mar 06 Python

Python和php通信乱码问题解决方法

Apr 15 Python

python实现查找excel里某一列重复数据并且剔除后打印的方法

May 26 Python

Python 结巴分词实现关键词抽取分析

Oct 21 Python

django实现登录时候输入密码错误5次锁定用户十分钟

Nov 05 Python

情人节快乐! python绘制漂亮玫瑰

Aug 18 Python

Tensorflow限制CPU个数实例

Feb 06 Python

python实现QQ邮箱发送邮件

Mar 06 Python

Python新手学习函数默认参数设置

Jun 03 Python

Django contrib auth authenticate函数源码解析

Nov 12 Python

Python如何telnet到网络设备

Feb 18 Python

python实战之一步一步教你绘制小猪佩奇

Apr 22 Python

Python控制多进程与多线程并发数总结

Oct 26 #Python

Python网络爬虫项目：内容提取器的定义

Oct 25 #Python

Python实现ssh批量登录并执行命令

Oct 25 #Python

详解Python的Lambda函数与排序

Oct 25 #Python

Python脚本实现Web漏洞扫描工具

Oct 25 #Python

python+django快速实现文件上传

Oct 24 #Python

python实现简单爬虫功能的示例

Oct 24 #Python

You might like

php+mysql实现的二级联动菜单效果详解

2016/05/10 PHP

Javascript调试工具（下载）

2007/01/09 Javascript

用js遍历 table的脚本

2008/07/23 Javascript

JSON 编辑器实现代码

2009/12/06 Javascript

WEB高性能开发之疯狂的HTML压缩

2010/06/19 Javascript

javascript游戏开发之《三国志曹操传》零部件开发(五)可移动地图的实现

2013/01/23 Javascript

JQuery.Ajax之错误调试帮助信息介绍

2013/07/04 Javascript

js this函数调用无需再次抓获id，name或标签名

2014/03/03 Javascript

javascript实现支持移动设备画廊

2015/08/24 Javascript

jquery制作属于自己的select自定义样式

2015/11/23 Javascript

javascript实现的网站访问量统计代码

2015/12/20 Javascript

jQuery EasyUi实战教程之布局篇

2016/01/26 Javascript

浅谈jQuery 选择器和dom操作

2016/06/07 Javascript

AngularJS基础 ng-src 指令简单示例

2016/08/03 Javascript

jQuery实现鼠标经过像翻页和描点链接效果

2016/08/08 Javascript

JS简单实现禁止访问某个页面的方法

2016/09/13 Javascript

js Date()日期函数浏览器兼容问题解决方法

2017/09/12 Javascript

解决VUEX兼容IE上的报错问题

2018/03/01 Javascript

vue中axios的封装问题(简易版拦截,get,post)

2018/06/15 Javascript

JavaScript实现图片懒加载的方法分析

2018/07/05 Javascript

element-ui 中的table的列隐藏问题解决

2018/08/24 Javascript

给localStorage设置一个过期时间的方法分享

2018/11/06 Javascript

vscode中eslint插件的配置（prettier配置无效）

2019/09/10 Javascript

Python设计足球联赛赛程表程序的思路与简单实现示例

2016/06/28 Python

实现python版本的按任意键继续/退出

2016/09/26 Python

python模块hashlib(加密服务)知识点讲解

2019/11/25 Python

在keras中获取某一层上的feature map实例

2020/01/24 Python

Django跨域资源共享问题(推荐)

2020/03/09 Python

JS原生实现轮播图的几种方法

2021/03/23 Javascript

农民入党思想汇报

2014/01/03 职场文书

安全检查验收制度

2014/01/12 职场文书

党政领导班子民主生活会整改措施

2014/09/18 职场文书

个人房屋租赁合同（标准范本）

2019/09/16 职场文书

用python开发一款操作MySQL的小工具

2021/05/12 Python

我对PyTorch dataloader里的shuffle=True的理解

2021/05/20 Python

html网页引入svg图片的4种方式

2022/08/05 HTML / CSS