编程 Python

python爬虫破解字体加密案例详解

Posted in Python onMarch 02, 2021

本次案例以爬取起小点小说为例

案例目的：

通过爬取起小点小说月票榜的名称和月票数，介绍如何破解字体加密的反爬，将加密的数据转化成明文数据。

程序功能：

输入要爬取的页数，得到每一页对应的小说名称和月票数。

案例分析：找到目标的url：

python爬虫破解字体加密案例详解

（右键检查）找到小说名称所在的位置：

python爬虫破解字体加密案例详解

通过名称所在的节点位置，找到小说名称的xpath语法：

python爬虫破解字体加密案例详解

（右键检查）找到月票数所在的位置：

python爬虫破解字体加密案例详解

由上图发现，检查月票数据的文本，得到一串加密数据。

我们通过xpathhelper进行调试发现，无法找到加密数据的语法。因此，需要通过正则表达式进行提取。

通过正则进行数据提取。

python爬虫破解字体加密案例详解

正则表达式如下：

python爬虫破解字体加密案例详解

得到的加密数据如下：

python爬虫破解字体加密案例详解

破解加密数据是本次案例的关键：

既然是加密数据，就会有加密数据所对应的加密规则的Font文件。
通过找到Font字体文件中数据加密文件的url，发送请求，获取响应，得到加密数据的woff文件。

注：我们需要的woff文件，名称与加密月票数前面的class属性相同。

python爬虫破解字体加密案例详解

如下图，下载woff文件：

找到16进制的数字对应的英文数字。

python爬虫破解字体加密案例详解

其次，我们需要通过第三方库TTFont将文件中的16进制数转换成10进制，将英文数字转换成阿拉伯数字。如下图：

python爬虫破解字体加密案例详解

解析出每个加密数据对应的对应的月票数的数字如下：

python爬虫破解字体加密案例详解

注意：

由于我们在上面通过正则表式获得的加密数据携带特殊符号

python爬虫破解字体加密案例详解

因此解析出月票数据中的数字之后，除了将特殊符号去除，还需把每个数字进行拼接，得到最后的票数。

最后，通过对比不同页的url，找到翻页的规律：

python爬虫破解字体加密案例详解

对比三个不同url发现，翻页的规律在于参数page

所以问题分析完毕，开始代码：

import requests
from lxml import etree
import re
from fontTools.ttLib import TTFont
import json

if __name__ == '__main__':
  # 输入爬取的页数、
  pages = int(input('请输入要爬取的页数：')) # eg:pages=1,2
  for i in range(pages): # i=0,(0,1)
    page = i+1  # 1,(1,2)
    # 确认目标的url
    url_ = f'https://www.qidian.com/rank/yuepiao?page={page}'
    # 构造请求头参数
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    # 发送请求，获取响应
    response_ = requests.get(url_,headers=headers)
    # 响应类型为html问文本
    str_data = response_.text
    # 将html文本转换成python文件
    py_data = etree.HTML(str_data)
    # 提取文本中的目标数据
    title_list = py_data.xpath('//h4/a[@target="_blank"]/text() ')
    # 提取月票数,由于利用xpath语法无法提取，因此换用正则表达式，正则提取的目标为response_.text
    mon_list = re.findall('</style><span class=".*?">(.*?)</span></span>',str_data)
    print(mon_list)
    # 获取字体反爬woff文件对应的url，xpath配合正则使用
    fonturl_str = py_data.xpath('//p/span/style/text()')
    font_url = re.findall(r"format\('eot'\); src: url\('(.*?)'\) format\('woff'\)",str_data)[0]
    print(font_url)
    # 获得url之后，构造请求头获取响应
    headers_ = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',
      'Referer':'https://www.qidian.com/'
    }
    # 发送请求，获取响应
    font_response = requests.get(font_url,headers=headers_)
    # 文件类型未知，因此用使用content格式
    font_data = font_response.content
    # 保存到本地
    with open('加密font文件.woff','wb')as f:
      f.write(font_data)
    # 解析加密的font文件
    font_obj = TTFont('加密font文件.woff')
    # 将文件转成明文的xml文件
    font_obj.saveXML('加密font文件.xml')
    # 获取字体加密的关系映射表，将16进制转换成10进制
    cmap_list = font_obj.getBestCmap()
    print('字体加密关系映射表：',cmap_list)
    # 创建英文转英文的字典
    dict_e_a = {'one':'1','two':'2','three':'3','four':'4','five':'5','six':'6',
          'seven':'7','eight':'8','nine':'9','zero':'0'}
    # 将英文数据进行转换
    for i in cmap_list:
      for j in dict_e_a:
        if j == cmap_list[i]:
          cmap_list[i] = dict_e_a[j]
    print('转换为阿拉伯数字的映射表为：',cmap_list)
    # 去掉加密的月票数据列表中的符号
    new_mon_list = []
    for i in mon_list:
      list_ = re.findall(r'\d+',i)
      new_mon_list.append(list_)
    print('去掉符号之后的月票数据列表为：',new_mon_list)
    # 最终解析月票数据
    for i in new_mon_list:
      for j in enumerate(i):
        for k in cmap_list:
          if j[1] == str(k):
            i[j[0]] = cmap_list[k]
    print('解析之后的月票数据为:',new_mon_list)
    # 将月票数据进行拼接
    new_list = []
    for i in new_mon_list:
      j = ''.join(i)
      new_list.append(j)
    print('解析出的明文数据为：',new_list)
    # 将名称和对应的月票数据放进字典，并转换成json格式及进行保存
    for i in range(len(title_list)):
      dict_ = {}
      dict_[title_list[i]] = new_list[i]
      # 将字典转换成json格式
      json_data = json.dumps(dict_,ensure_ascii=False)+',\n'
      # 将数据保存到本地
      with open('翻页起小点月票榜数据爬取.json','a',encoding='utf-8')as f:
        f.write(json_data)

爬取了两页的数据，每一页包含20个数据

执行结果如下：

python爬虫破解字体加密案例详解

到此这篇关于python爬虫破解字体加密案例详解的文章就介绍到这了,更多相关python爬虫破解字体加密内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫破解字体加密案例详解

- Author -

coffeetogether

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现多线程暴力破解登陆路由器功能代码分享

Jan 04 Python

Python的MongoDB模块PyMongo操作方法集锦

Jan 05 Python

Python标准库之collections包的使用教程

Apr 27 Python

Python网络编程之TCP套接字简单用法示例

Apr 09 Python

通过shell+python实现企业微信预警

Mar 07 Python

Django后台admin的使用详解

Jul 08 Python

Python多线程及其基本使用方法实例分析

Oct 29 Python

python 实现提取log文件中的关键句子,并进行统计分析

Dec 24 Python

pytorch 自定义参数不更新方式

Jan 06 Python

python logging设置level失败的解决方法

Feb 19 Python

使用 Python 读取电子表格中的数据实例详解

Apr 17 Python

python 装饰器的实际作用有哪些

Sep 07 Python

python包的导入方式总结

Mar 02 #Python

numpy实现RNN原理实现

Mar 02 #Python

解决tensorflow模型压缩的问题_踩坑无数,总算搞定

Mar 02 #Python

python Protobuf定义消息类型知识点讲解

Mar 02 #Python

Django项目在pycharm新建的步骤方法

Mar 02 #Python

基于注解实现 SpringBoot 接口防刷的方法

Mar 02 #Python

python Autopep8实现按PEP8风格自动排版Python代码

Mar 02 #Python

You might like

php 过滤危险html代码

2009/06/29 PHP

php查看请求头信息获取远程图片大小的方法分享

2013/12/25 PHP

ThinkPHP连接数据库及主从数据库的设置教程

2014/08/22 PHP

Laravel 框架控制器 Controller原理与用法实例分析

2020/04/14 PHP

浅谈JavaScript中面向对象技术的模拟

2006/09/25 Javascript

jquery滚动组件(vticker.js)实现页面动态数据的滚动效果

2013/07/03 Javascript

删除select中所有option选项jquery代码

2013/08/12 Javascript

解决jquery插件冲突的问题

2014/01/23 Javascript

node.js入门教程

2014/06/01 Javascript

使用时间戳解决ie缓存的问题

2014/08/20 Javascript

一张Web前端的思维导图分享

2015/07/03 Javascript

AngularJS Module方法详解

2015/12/08 Javascript

Bootstrap三种表单布局的使用方法

2016/06/21 Javascript

JavaScript中的事件委托及好处

2016/07/12 Javascript

JS作用域链详解

2017/06/26 Javascript

jQuery选择器之表单元素选择器详解

2017/09/19 jQuery

原生JS实现获取及修改CSS样式的方法

2018/09/04 Javascript

使用微信小程序开发弹出框应用实例详解

2018/10/18 Javascript

JS删除String里某个字符的方法

2021/01/06 Javascript

Vue在chrome44偶现点击子元素事件无法冒泡的解决方法

2019/12/15 Javascript

JS面向对象编程基础篇（一）对象和构造函数实例详解

2020/03/03 Javascript

解决Vue的项目使用Element ui 走马灯无法实现的问题

2020/08/03 Javascript

[47:55]Ti4第二日主赛事败者组 NaVi vs EG 1

2014/07/20 DOTA

Python中字典(dict)和列表(list)的排序方法实例

2014/06/16 Python

数据挖掘之Apriori算法详解和Python实现代码分享

2014/11/07 Python

python sort、sorted高级排序技巧

2014/11/21 Python

Python中的并发处理之asyncio包使用的详解

2018/04/03 Python

python写入已存在的excel数据实例

2018/05/03 Python

python2.7实现邮件发送功能

2018/12/12 Python

解决Django中修改js css文件但浏览器无法及时与之改变的问题

2019/08/31 Python

python使用建议与技巧分享（二）

2020/08/17 Python

HTML5表格_动力节点Java学院整理

2017/07/11 HTML / CSS

澳大利亚美容产品及化妆品在线：Activeskin

2020/06/03 全球购物

搞笑获奖感言

2014/01/30 职场文书

2015年学校政教处工作总结

2015/05/26 职场文书

国博复兴之路观后感

2015/06/02 职场文书