编程 Python

关于反爬虫的一些简单总结

Posted in Python onDecember 13, 2017

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求；如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。

1、爬取过程中的302重定向

在爬取某个网站速度过快或者发出的请求过多的时候，网站会向你所在的客户端发送一个链接，需要你去验证图片。我在爬链家和拉钩网的过程中就曾经遇到过：

关于反爬虫的一些简单总结

对于302重定向的问题，是由于抓取速度过快引起网络流量异常，服务器识别出是机器发送的请求，于是将请求返回链接定到某一特定链接，大多是验证图片或空链接。

在这种时候，既然已经被识别出来了，就使用代理ip再继续抓取。

2、headers头文件

有些网站对爬虫反感，对爬虫请求一律拒绝，这时候我们需要伪装成浏览器，通过修改http中的headers来实现

headers = {
'Host': "bj.lianjia.com",
'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
'Accept-Encoding': "gzip, deflate, sdch",
'Accept-Language': "zh-CN,zh;q=0.8",
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36",
'Connection': "keep-alive",
}
p = requests.get(url, headers=headers)
print(p.content.decode('utf-8'))

3、模拟登陆

一般登录的过程都伴随有验证码，这里我们通过selenium自己构造post数据进行提交，将返回验证码图片的链接地址输出到控制台下，点击图片链接识别验证码，输入验证码并提交，完成登录。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys #
from selenium.webdriver.support.ui import WebDriverWait # WebDriverWait的作用是等待某个条件的满足之后再往后运行
from selenium.webdriver import ActionChains
import time
import sys
driver = webdriver.PhantomJS(executable_path='C:\PyCharm 2016.2.3\phantomjs\phantomjs.exe') # 构造网页驱动

driver.get('https://www.zhihu.com/#signin')  # 打开网页
driver.find_element_by_xpath('//input[@name="password"]').send_keys('your_password')
driver.find_element_by_xpath('//input[@name="account"]').send_keys('your_account')
driver.get_screenshot_as_file('zhihu.jpg')     # 截取当前页面的图片
input_solution = input('请输入验证码 :')
driver.find_element_by_xpath('//input[@name="captcha"]').send_keys(input_solution)
time.sleep(2)

driver.find_element_by_xpath('//form[@class="zu-side-login-box"]').submit() # 表单的提交 表单的提交，即可以选择登录按钮然后使用click方法，也可以选择表单然后使用submit方法
sreach_widonw = driver.current_window_handle  # 用来定位当前页面
# driver.find_element_by_xpath('//button[@class="sign-button submit"]').click()
try:
dr = WebDriverWait(driver,5)
# dr.until(lambda the_driver: the_driver.find_element_by_xpath('//a[@class="zu-side-login-box"]').is_displayed())
if driver.find_element_by_xpath('//*[@id="zh-top-link-home"]'):
print('登录成功')
except:
print('登录失败')
driver.save_screenshot('screen_shoot.jpg')  #截取当前页面的图片
sys.exit(0)
driver.quit() #退出驱动

这里面，PhantomJS是一个很棒的exe，下载地址：phantomjs。他可以模拟浏览器行为进行操作。当我们遇到JS渲染的网页，在使用正则表达式、BS4和xpath . . . 都无法匹配出数据时（数据根本没加载上），可以使用PhantomJS模拟浏览器行为发送请求，将会得到网页的原始全部数据。

4、代理ip

当爬取速度过快时，当请求次数过多时都面临ip被封的可能。因此使用代理也是必备的。

使用request加代理

import requests
proxies = { "http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",}
p = request.get("http://www.baidu.com", proxies = proxies)
print(p.content.decode('utf-8'))

使用urllib加代理

user_agent ='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0'
headers = {'User-Agent':user_agent}
proxy = {'http':'http://10.10.1.10:1080',}
proxy_handler = urllib.request.ProxyHandler(proxy)
opener = urllib.request.build_opener(proxy_handler)
urllib.request.install_opener(opener)
url = "https://www.baidu.com/"
req = urllib.request.Request(url=url,headers=headers)
res = urllib.request.urlopen(req)
print(res.read().decode('utf-8')) # 打印网页内容

5、验证码输入

遇到验证的问题，我一般都是人工识别：获取验证码的链接再控制台下 ——> 点击链接识别验证码 ——> 在控制台手动输入验证码并提交。

6、ajax加载的数据

对于ajax加载的数据，我们无论通过request或post方法请求得到的网页都无法得到。

关于一个网页是否是ajax加载数据，我们只需将网页内容print到控制台下，将其与网页原始内容进行比对，如果有数据缺失，那么这些数据就是ajax加载。例如：我们想获取京东上商品的价格、销量、好评等方面的数据，但是请求返回的网页中没有这些数据。因为这些数据是ajax加载。对于ajax加载的页面，一般有两种方法。

（1）分析网页

按F12打开浏览器调试工具，在Network下选择XHR或Doc标签，分析（双击点开查看）这两个标签下的链接。如果点开链接打开的网页中正好有那些没有加载的数据，则这些数据是通过该链接传送的。再对该链接进行规律分析，以后对该链接发送请求。

关于反爬虫的一些简单总结

（2）使用PhantomJS模拟浏览器行为

使用PhantomJS模拟浏览器进行发送请求，得到返回的内容是完全的（ajax加载的数据也会有）。但是使用PhantomJS请求速度过慢，一般一个网页4~5s时间，不能忍。一般要使用PhantomJS需要开多线程。

driver = webdriver.PhantomJS(executable_path='C:\PyCharm 2016.2.3\phantomjs\phantomjs.exe') # 构造网页驱动
driver.get('https://www.zhihu.com/') 
print(driver.page_source) # 打印网页内容

总结

以上就是本文关于关于反爬虫的一些简单总结的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

关于反爬虫的一些简单总结

- Author -

超人Python

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python学习数据结构实例代码

May 11 Python

python获取各操作系统硬件信息的方法

Jun 03 Python

Python机器学习logistic回归代码解析

Jan 17 Python

基于MTCNN/TensorFlow实现人脸检测

May 24 Python

使用Python监视指定目录下文件变更的方法

Oct 15 Python

解决pycharm安装后代码区不能编辑的问题

Oct 28 Python

使用python根据端口号关闭进程的方法

Nov 06 Python

python利用百度AI实现文字识别功能

Nov 27 Python

Python 元组操作总结

Sep 18 Python

Django 实现xadmin后台菜单改为中文

Nov 15 Python

在keras中对单一输入图像进行预测并返回预测结果操作

Jul 09 Python

python自动化八大定位元素讲解

Jul 09 Python

Python自动化运维_文件内容差异对比分析

Dec 13 #Python

Python实现自动发送邮件功能

Mar 02 #Python

django站点管理详解

Dec 12 #Python

Django 生成登陆验证码代码分享

Dec 12 #Python

python+django加载静态网页模板解析

Dec 12 #Python

Django入门使用示例

Dec 12 #Python

django使用html模板减少代码代码解析

Dec 12 #Python

You might like

解析使用ThinkPHP应该掌握的调试手段

2013/06/20 PHP

php微信开发之自定义菜单实现

2016/11/18 PHP

简单实现php上传文件功能

2017/09/21 PHP

php中通用的excel导出方法实例

2017/12/30 PHP

PHP文件打开关闭及读写操作示例解析

2020/08/06 PHP

Jquery+JSon 无刷新分页实现代码

2010/04/01 Javascript

IE6图片加载的一个BUG解决方法

2010/07/13 Javascript

JavaScript高级程序设计读书笔记之八 Function类及闭包

2012/02/27 Javascript

jquery监听div内容的变化具体实现思路

2013/11/04 Javascript

解决用jquery load加载页面到div时,不执行页面js的问题

2014/02/22 Javascript

javascript新闻跑马灯实例代码

2020/07/29 Javascript

jquery捕捉回车键及获取checkbox值与异步请求的方法

2015/12/24 Javascript

AngularJS中指令的四种基本形式实例分析

2016/11/22 Javascript

vue脚手架vue-cli的学习使用教程

2017/06/06 Javascript

vue、react等单页面项目应该这样子部署到服务器

2018/01/03 Javascript

Webpack 之 babel-loader文件预处理器详解

2018/03/23 Javascript

Mac下通过brew安装指定版本的nodejs教程

2018/05/17 NodeJs

JavaScript中import用法总结

2019/01/20 Javascript

微信小程序使用map组件实现检索(定位位置)周边的POI功能示例

2019/01/23 Javascript

通过jQuery学习js类型判断的技巧

2019/05/27 jQuery

全面解析JavaScript Module模式

2020/07/24 Javascript

python网络编程学习笔记(六)：Web客户端访问

2014/06/09 Python

Python中列表与元组的乘法操作示例

2018/02/10 Python

运行tensorflow python程序,限制对GPU和CPU的占用操作

2020/02/06 Python

基于python实现生成指定大小txt文档

2020/07/20 Python

英国性感内衣和睡衣品牌：Bluebella

2018/01/26 全球购物

文员自我评价怎么写

2013/09/19 职场文书

幼儿园保教管理制度

2014/02/03 职场文书

房展策划方案

2014/06/07 职场文书

环卫处个人工作总结

2015/03/04 职场文书

2016十一国庆节慰问信

2015/12/01 职场文书

使用Selenium实现微博爬虫(预登录、展开全文、翻页)

2021/04/13 Python

JavaScript实现简单图片切换

2021/04/29 Javascript

《艾尔登法环》1.03.3补丁上线碎星伤害调整

2022/04/06 其他游戏

Java 垃圾回收超详细讲解记忆集和卡表

2022/04/08 Java/Android

一文解答什么是MySQL的回表

2022/08/05 MySQL