编程 Python

python 常见的反爬虫策略

Posted in Python onSeptember 27, 2020

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理
referer 请求来自哪里
cookie 也可以用来做访问凭证
解决办法：请求头里面添加对应的参数（复制浏览器里面的数据）

2、根据用户行为来进行反爬

请求频率过高，服务器设置规定时间之内的请求阈值
解决办法：降低请求频率或者使用代理（IP代理）
网页中设置一些陷阱（正常用户访问不到但是爬虫可以访问到）
解决办法：分析网页，避开这些特殊陷阱
请求间隔太短，返回相同的数据
解决办法：增加请求间隔

3、js加密

反爬方式中较为难处理的一类。
js加密的原理：服务器响应给浏览器的js文件，可以动态的生成一些加密参数，浏览器会根据js的计算得到这些参数，在请求中带入进来，如果请求中没有这些参数，那么服务器就任务请求无效。

python 常见的反爬虫策略

4、字体加密

字体反爬，是一种常见的反爬技术，网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符。采用自定义字体文件是CSS3的新特性，熟悉前端的同学可能知道，就是font-face属性。

python 常见的反爬虫策略

5、登录验证码

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站，不同网站的使用的验证码也不同，在最开始使用简单验证码，识别数字，但是随着反爬的不断发展，慢慢设计出了更多复杂的验证码，比如：内容验证码、滑动验证码、图片拼接验证码等等。
网上有很多打码平台，通过注册账号，调用平台接口，进行验证码的验证。

python 常见的反爬虫策略

6、md5相关知识

MD5，消息摘要算法，一种被广泛使用的密码散列函数，可以产生出一个128位（16字节）的散列值（hash value），用于确保信息传输完整一致。MD5是最常见的摘要算法，速度很快，生成结果是固定的128 bit字节，通常用一个32位的16进制字符串表示。MD5的特点：
1.不可逆：不能从密文推导出明文。
2.不管明文长度为多少，密文的长度都固定。
3.密文之间不会重复。

import hashlib
print(hashlib.md5('python'.encode()).hexdigest())

字符串python加密后的结果：

23eeeb4347bdd26bfc6b7ee9a3b755dd

7、base64

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一，Base64就是一种基于64个可打印字符来表示二进制数据的方法。Base64编码是从二进制到字符的过程，可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性，需要解码后才能阅读。

import base64

#python中base64的加密
print(base64.b64encode('python'.encode()).decode())
#python中base64的解密
print(base64.b64decode('Y2hpbmE='.encode()).decode())

结果：

cHl0aG9u
china

二、验证码验证

自己动手看验证码(古诗词网)

import requests

url = "gushiwen.org"

session = requests.Session()

text = session.get(url).text

# 解析响应，找到验证码的图片地址，
# 下载验证码图片，保存
with open('code.jpg', 'wb')as f:
  f.write('验证码的url地址'.encode())

code = input('验证码是: ')

login_url = "login.com"

data = {
  "username": 'xx',
  "password": 'xx',
  "code": code
}
requests.post(url, data=data)

使用打码平台（图鉴）

新建一个captcha_api.py

import json
import requests
import base64
from io import BytesIO
from PIL import Image
from sys import version_info


def base64_api(uname, pwd, img):
  img = img.convert('RGB')
  buffered = BytesIO()
  img.save(buffered, format="JPEG")
  if version_info.major >= 3:
    b64 = str(base64.b64encode(buffered.getvalue()), encoding='utf-8')
  else:
    b64 = str(base64.b64encode(buffered.getvalue()))
  data = {"username": uname, "password": pwd, "image": b64}
  result = json.loads(requests.post("http://api.ttshitu.com/base64", json=data).text)
  if result['success']:
    return result["data"]["result"]
  else:
    return result["message"]
  return ""


def request_captcha(uname, pwd, img_path):
  img_path = img_path # 待验证的验证码路径
  img = Image.open(img_path)
  result = base64_api(uname, pwd, img)
  # 传入账号 密码 和图片
  print(result)

新建use_code.py，调用接口

img_path = '图片路径'

from captcha_api import request_captcha

ret = request_captcha("账号", "密码", img_path)

以上就是python 常见的反爬虫策略的详细内容，更多关于python反爬虫的资料请关注三水点靠木其它相关文章！

python 常见的反爬虫策略

- Author -

松鼠爱吃饼干

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python调用Delphi写的Dll代码示例

Dec 05 Python

高效使用Python字典的清单

Apr 04 Python

Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】

Dec 05 Python

Python利用字典破解WIFI密码的方法

Feb 27 Python

python3 动态模块导入与全局变量使用实例

Dec 22 Python

python 日志 logging模块详细解析

Mar 31 Python

keras实现VGG16 CIFAR10数据集方式

Jul 07 Python

详解KMP算法以及python如何实现

Sep 18 Python

利用django创建一个简易的博客网站的示例

Sep 29 Python

使用py-spy解决scrapy卡死的问题方法

Sep 29 Python

Prometheus开发中间件Exporter过程详解

Nov 30 Python

利用python进行文件操作

Dec 04 Python

python 5个实用的技巧

Sep 27 #Python

Python日志器使用方法及原理解析

Sep 27 #Python

python 爬取免费简历模板网站的示例

Sep 27 #Python

python如何提升爬虫效率

Sep 27 #Python

python操作链表的示例代码

Sep 27 #Python

python用tkinter实现一个简易能进行随机点名的界面

Sep 27 #Python

python实现暗通道去雾算法的示例

Sep 27 #Python

You might like

用mysql内存表来代替php session的类

2009/02/01 PHP

Look And Say 序列php实现代码

2011/05/22 PHP

php控制linux服务器常用功能关机重启开新站点等

2012/09/05 PHP

php利用cookie实现自动登录的方法

2014/12/10 PHP

简单了解将WordPress中的工具栏移到底部的小技巧

2015/12/31 PHP

PHP+JS三级菜单联动菜单实现方法

2016/02/24 PHP

PHP 在数组中搜索给定的简单实例 array_search 函数

2016/06/13 PHP

PHP实现一个轻量级容器的方法

2019/01/28 PHP

Avengerls vs KG BO3 第二场2.18

2021/03/10 DOTA

JavaScript高级程序设计（第3版）学习笔记5 js语句

2012/10/11 Javascript

编写简单的jQuery提示插件

2014/12/21 Javascript

JavaScript取得WEB安全颜色列表的方法

2015/07/14 Javascript

JavaScript 2048 游戏实例代码(简单易懂)

2016/03/25 Javascript

Angular中自定义Debounce Click指令防止重复点击

2017/07/26 Javascript

js最简单的双向绑定实例讲解

2018/01/02 Javascript

微信小程序中使用ECharts 异步加载数据的方法

2018/06/27 Javascript

ES6使用export和import实现模块化的方法

2018/09/10 Javascript

layui上传图片到服务器的非项目目录下的方法

2019/09/26 Javascript

Vue 路由间跳转和新开窗口的方式（query、params）

2019/12/25 Javascript

基于JavaScript实现留言板功能

2020/03/16 Javascript

Python中利用函数装饰器实现备忘功能

2015/03/30 Python

python开发中module模块用法实例分析

2015/11/12 Python

Python实现PS图像调整之对比度调整功能示例

2018/01/26 Python

详解Django的CSRF认证实现

2018/10/09 Python

python截取两个单词之间的内容方法

2018/12/25 Python

Python高级特性切片迭代解析

2019/08/23 Python

Python跑循环时内存泄露的解决方法

2020/01/13 Python

python通过安装itchat包实现微信自动回复收到的春节祝福

2020/01/19 Python

Python通过getattr函数获取对象的属性值

2020/10/16 Python

意大利奢侈品购物网站：Giglio

2018/01/05 全球购物

波兰在线体育用品商店：Hop-Sport.pl

2019/07/23 全球购物

中专毕业生自我鉴定

2014/02/02 职场文书

酒店员工培训方案

2014/06/02 职场文书

建筑结构施工求职信

2014/07/11 职场文书

Python基础知识之变量的详解

2021/04/14 Python

我收到了德劲DE1107

2022/04/05 无线电