python爬虫破解字体加密案例详解


Posted in Python onMarch 02, 2021

本次案例以爬取起小点小说为例

案例目的:

通过爬取起小点小说月票榜的名称和月票数,介绍如何破解字体加密的反爬,将加密的数据转化成明文数据。

程序功能:

输入要爬取的页数,得到每一页对应的小说名称和月票数。

案例分析: 找到目标的url:

python爬虫破解字体加密案例详解

(右键检查)找到小说名称所在的位置:

python爬虫破解字体加密案例详解

通过名称所在的节点位置,找到小说名称的xpath语法:

python爬虫破解字体加密案例详解

(右键检查)找到月票数所在的位置:

python爬虫破解字体加密案例详解

由上图发现,检查月票数据的文本,得到一串加密数据。

我们通过xpathhelper进行调试发现,无法找到加密数据的语法。因此,需要通过正则表达式进行提取。

通过正则进行数据提取。

python爬虫破解字体加密案例详解

正则表达式如下:

python爬虫破解字体加密案例详解

得到的加密数据如下:

python爬虫破解字体加密案例详解

破解加密数据是本次案例的关键:

既然是加密数据,就会有加密数据所对应的加密规则的Font文件。
通过找到Font字体文件中数据加密文件的url,发送请求,获取响应,得到加密数据的woff文件。

注:我们需要的woff文件,名称与加密月票数前面的class属性相同。

python爬虫破解字体加密案例详解

如下图,下载woff文件:

找到16进制的数字对应的英文数字。

python爬虫破解字体加密案例详解

其次,我们需要通过第三方库TTFont将文件中的16进制数转换成10进制,将英文数字转换成阿拉伯数字。如下图:

python爬虫破解字体加密案例详解

解析出每个加密数据对应的对应的月票数的数字如下:

python爬虫破解字体加密案例详解

注意:

由于我们在上面通过正则表式获得的加密数据携带特殊符号

python爬虫破解字体加密案例详解

因此解析出月票数据中的数字之后,除了将特殊符号去除,还需把每个数字进行拼接,得到最后的票数。

最后,通过对比不同页的url,找到翻页的规律:

python爬虫破解字体加密案例详解
python爬虫破解字体加密案例详解
python爬虫破解字体加密案例详解

对比三个不同url发现,翻页的规律在于参数page

所以问题分析完毕,开始代码:

import requests
from lxml import etree
import re
from fontTools.ttLib import TTFont
import json

if __name__ == '__main__':
  # 输入爬取的页数、
  pages = int(input('请输入要爬取的页数:')) # eg:pages=1,2
  for i in range(pages): # i=0,(0,1)
    page = i+1  # 1,(1,2)
    # 确认目标的url
    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'
    # 构造请求头参数
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    # 发送请求,获取响应
    response_ = requests.get(url_,headers=headers)
    # 响应类型为html问文本
    str_data = response_.text
    # 将html文本转换成python文件
    py_data = etree.HTML(str_data)
    # 提取文本中的目标数据
    title_list = py_data.xpath('//h4/a[@target="_blank"]/text() ')
    # 提取月票数,由于利用xpath语法无法提取,因此换用正则表达式,正则提取的目标为response_.text
    mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data)
    print(mon_list)
    # 获取字体反爬woff文件对应的url,xpath配合正则使用
    fonturl_str = py_data.xpath('//p/span/style/text()')
    font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]
    print(font_url)
    # 获得url之后,构造请求头获取响应
    headers_ = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',
      'Referer':'https://www.qidian.com/'
    }
    # 发送请求,获取响应
    font_response = requests.get(font_url,headers=headers_)
    # 文件类型未知,因此用使用content格式
    font_data = font_response.content
    # 保存到本地
    with open('加密font文件.woff','wb')as f:
      f.write(font_data)
    # 解析加密的font文件
    font_obj = TTFont('加密font文件.woff')
    # 将文件转成明文的xml文件
    font_obj.saveXML('加密font文件.xml')
    # 获取字体加密的关系映射表,将16进制转换成10进制
    cmap_list = font_obj.getBestCmap()
    print('字体加密关系映射表:',cmap_list)
    # 创建英文转英文的字典
    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',
          'seven':'7','eight':'8','nine':'9','zero':'0'}
    # 将英文数据进行转换
    for i in cmap_list:
      for j in dict_e_a:
        if j == cmap_list[i]:
          cmap_list[i] = dict_e_a[j]
    print('转换为阿拉伯数字的映射表为:',cmap_list)
    # 去掉加密的月票数据列表中的符号
    new_mon_list = []
    for i in mon_list:
      list_ = re.findall(r'\d+',i)
      new_mon_list.append(list_)
    print('去掉符号之后的月票数据列表为:',new_mon_list)
    # 最终解析月票数据
    for i in new_mon_list:
      for j in enumerate(i):
        for k in cmap_list:
          if j[1] == str(k):
            i[j[0]] = cmap_list[k]
    print('解析之后的月票数据为:',new_mon_list)
    # 将月票数据进行拼接
    new_list = []
    for i in new_mon_list:
      j = ''.join(i)
      new_list.append(j)
    print('解析出的明文数据为:',new_list)
    # 将名称和对应的月票数据放进字典,并转换成json格式及进行保存
    for i in range(len(title_list)):
      dict_ = {}
      dict_[title_list[i]] = new_list[i]
      # 将字典转换成json格式
      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'
      # 将数据保存到本地
      with open('翻页起小点月票榜数据爬取.json','a',encoding='utf-8')as f:
        f.write(json_data)

爬取了两页的数据,每一页包含20个数据

执行结果如下:

python爬虫破解字体加密案例详解

到此这篇关于python爬虫破解字体加密案例详解的文章就介绍到这了,更多相关python爬虫破解字体加密内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Linux下调试Python代码的各种方法
Apr 17 Python
Python和Perl绘制中国北京跑步地图的方法
Mar 03 Python
python中利用await关键字如何等待Future对象完成详解
Sep 07 Python
基于Django URL传参 FORM表单传数据 get post的用法实例
May 28 Python
python+selenium打印当前页面的titl和url方法
Jun 22 Python
Python将json文件写入ES数据库的方法
Apr 10 Python
python的命名规则知识点总结
Oct 04 Python
pandas 空数据处理方法详解
Nov 02 Python
python hash每次调用结果不同的原因
Nov 21 Python
Python CSV文件模块的使用案例分析
Dec 21 Python
解决Django部署设置Debug=False时xadmin后台管理系统样式丢失
Apr 07 Python
python爬虫利用selenium实现自动翻页爬取某鱼数据的思路详解
Dec 22 Python
python包的导入方式总结
Mar 02 #Python
numpy实现RNN原理实现
Mar 02 #Python
解决tensorflow模型压缩的问题_踩坑无数,总算搞定
Mar 02 #Python
python Protobuf定义消息类型知识点讲解
Mar 02 #Python
Django项目在pycharm新建的步骤方法
Mar 02 #Python
基于注解实现 SpringBoot 接口防刷的方法
Mar 02 #Python
python Autopep8实现按PEP8风格自动排版Python代码
Mar 02 #Python
You might like
探讨如何把session存入数据库
2013/06/07 PHP
PHP 获取远程文件大小的3种解决方法
2013/07/11 PHP
php生成缩略图填充白边(等比缩略图方案)
2013/12/25 PHP
thinkphp中memcache的用法实例
2014/11/29 PHP
Yii2创建表单(ActiveForm)方法详解
2016/07/23 PHP
php cookie用户登录的详解及实例代码
2017/01/03 PHP
JQuery 选项卡效果(JS与HTML的分离)
2010/04/01 Javascript
JavaScript的类型简单说明
2010/09/03 Javascript
jQuery中选择器小问题(新人难免遇到)
2014/03/31 Javascript
js实现点击添加一个input节点
2014/12/05 Javascript
javascript实现左右控制无缝滚动
2014/12/31 Javascript
探析浏览器执行JavaScript脚本加载与代码执行顺序
2016/01/12 Javascript
Hammer.js+轮播原理实现简洁的滑屏功能
2016/02/02 Javascript
JavaScript在form表单中使用button按钮实现submit提交方法
2017/01/23 Javascript
利用nodejs监控文件变化并使用sftp上传到服务器
2017/02/18 NodeJs
详解JSON Web Token 入门教程
2018/07/30 Javascript
微信小程序全局变量GLOBALDATA的定义和调用过程解析
2019/09/23 Javascript
Ubuntu16.04/树莓派Python3+opencv配置教程(分享)
2018/04/02 Python
tensorflow 用矩阵运算替换for循环 用tf.tile而不写for的方法
2018/07/27 Python
DES加密解密算法之python实现版(图文并茂)
2018/12/06 Python
django框架实现模板中获取request 的各种信息示例
2019/07/01 Python
python 判断字符串中是否含有汉字或非汉字的实例
2019/07/15 Python
使用 PyTorch 实现 MLP 并在 MNIST 数据集上验证方式
2020/01/08 Python
python文件排序的方法总结
2020/09/13 Python
用python读取xlsx文件
2020/12/17 Python
Python3中对json格式数据的分析处理
2021/01/28 Python
python中if嵌套命令实例讲解
2021/02/25 Python
CSS3新增布局之: flex详解
2020/06/18 HTML / CSS
芝加哥牛排公司:Chicago Steak Company
2018/10/31 全球购物
Vita Fede官网:在意大利手工制作,在纽约市设计
2019/10/25 全球购物
个人简历中的自我评价范例
2013/10/29 职场文书
中药学专业求职信
2014/05/31 职场文书
结婚当天新郎保证书
2015/05/08 职场文书
小学数学教学反思范文
2016/02/16 职场文书
2019生态环境保护倡议书!
2019/07/03 职场文书
IDEA 链接Mysql数据库并执行查询操作的完整代码
2021/05/20 MySQL