Python爬虫:从m3u8文件里提取小视频的正确操作

在网上爬取的小视频(.ts格式)打不开怎么搞?使用IDM下载有时候还会出现数据受法律保护,IDM无法下载该内容,如何解决?这篇博客就来聊聊如何正确提取m3u8文件里的.ts视频,并合成完整的.mp4格式视频。

Posted in Python onMay 14, 2021

在网上爬取的小视频(.ts格式)打不开怎么搞?使用IDM下载有时候还会出现数据受法律保护,IDM无法下载该内容,如何解决?这篇博客就来聊聊如何正确提取m3u8文件里的.ts视频,并合成完整的.mp4格式视频。

Python爬虫:从m3u8文件里提取小视频的正确操作
Python爬虫:从m3u8文件里提取小视频的正确操作

1. HLS协议与m3u8文件

HLS,即 H T T P   L i v e   S t r e a m i n g HTTP\ Live\ Streaming HTTP Live Streaming的缩写,是由苹果公司提出基于HTTP的流媒体网络传输协议。是苹果公司QuickTime X和iPhone软件系统的一部分。它的工作原理是把整个流分成一个个小的基于HTTP的文件来下载,每次只下载一些。当媒体流正在播放时,客户端可以选择从许多不同的备用源中以不同的速率下载同样的资源,允许流媒体会话适应不同的数据速率。在开始一个流媒体会话时,客户端会下载一个包含元数据的扩展 M3U (m3u8) 播放列表文件,用于寻找可用的媒体流。
  M3U8是 U n i c o d e Unicode Unicode 版本的 M3U,用 UTF-8 编码。"M3U"和"M3U8"文件都是苹果公司使用的 H T T P   L i v e   S t r e a m i n g HTTP\ Live\ Streaming HTTP Live Streaming 格式的基础,这种格式可以在 iPhone 和 Macbook 等设备播放。是一种播放多媒体列表的文件格式,文本内容是一系列媒体片段资源,顺序播放该片段资源,即可完整展示多媒体资源。其格式大致如下:

# 未加密
	#EXTM3U
	#EXT-X-VERSION:3
	#EXT-X-TARGETDURATION:8
	#EXT-X-MEDIA-SEQUENCE:0
	#EXTINF:4.000000,
	1af12fece7a000000.ts
	#EXTINF:4.320000,
	1af12fece7a000001.ts
	...
	#EXTINF:3.800000,
	1af12fece7a001155.ts
	#EXT-X-ENDLIST
	
	# 加密
	#EXTM3U
	#EXT-X-VERSION:3
	#EXT-X-TARGETDURATION:6
	#EXT-X-PLAYLIST-TYPE:VOD
	#EXT-X-MEDIA-SEQUENCE:0
	#EXT-X-KEY:METHOD=AES-128,URI="https://ts1.yuyuangewh.com:9999/20200808/1XdSSbTb/2000kb/hls/key.key"
	#EXTINF:3,
	https://ts1.yuyuangewh.com:9999/20200808/1XdSSbTb/2000kb/hls/EUtRrqJU.ts
	#EXTINF:4.72,
	https://ts1.yuyuangewh.com:9999/20200808/1XdSSbTb/2000kb/hls/HF90vrrN.ts
	...
	#EXTINF:0.24,
	https://ts1.yuyuangewh.com:9999/20200808/1XdSSbTb/2000kb/hls/b7ZLcRqT.ts
	#EXT-X-ENDLIST

  中文维基百科----HTTP Live Streaming
  中文维基百科----M3U

下面介绍几个m3u8文件中常见的标签:

标签 格式 作用
EXTM3U #EXTM3U 表明该文件是一个m3u8文件,每个m3u8文件必须将该标签放置在第一行
EXT-X-VERSION EXT-X-VERSION:<number> 表明该文件是一个m3u8文件,每个m3u8文件必须将该标签放置在第一行
EXT-X-TARGETDURATION #EXT-X-TARGETDURATION:<s> 表示每个视频分段最大的时长(单位秒)
EXT-X-PLAYLIST-TYPE #EXT-X-PLAYLIST-TYPE:<type-enum> 表明流媒体类型,VOD 表示该视屏流为点播源,因此服务器不能更改该m3u8文件;EVENT表示该视频流为直播源,因此服务器不能更改或删除该文件任意部分内容,但是可以在文件末尾添加新内容
EXT-X-MEDIA-SEQUENCE #EXT-X-MEDIA-SEQUENCE:<number> 表示播放列表第一个URL片段文件的序列号,每个媒体片段URL都拥有一个唯一的整型序列号,每个媒体片段序列号按出现顺序依次加 1,如果该标签未指定,则默认序列号从0开始
EXT-X-KEY #EXT-X-KEY:METHOD=AES-128,URI="http:xxxx",IV="xxxx" 表明视频流文件的加解密方法,METHOD表示加密方式,URI表示密钥路径,该密钥是一个 16 字节的数据,IV是一个128位的十六进制数值
EXTINF #EXTINF:<duration>,[<title>] 表示其后 URL 指定的媒体片段时长(单位为秒),duration可以为十进制的整型或者浮点型,其值必须小于或等于EXT-X-TARGETDURATION指定的值
EXT-X-ENDLIST #EXT-X-ENDLIST 表明m3u8文件的结束

  简书:m3u8 文件格式详解 作者:Whyn

2. 第三方库----m3u8

  m3u8是一个专门用于解析m3u8文件的解析器,有关库的详细操作请参阅官方示例

# 安装m3u8
	pip install m3u8
# 加载m3u8文件
	import m3u8

	# 返回一个M3U8对象
	playlist = m3u8.load(uri='http://videoserver.com/playlist.m3u8')	# url
	# playlist = m3u8.load(uri='playlist.m3u8')	# file
	print(playlist.segments)	# 打印EXT-X-KEY标签和所有的EXTINF标签:
	print(playlist.target_duration)	# 打印EXT-X-TARGETDURATION标签的值

	for key in playlist.keys:
		if key:
			# 如果视频文件加密,可以查看加密参数
			print(key.uri, key.method, key.iv)

3. 合成mp4文件

Python爬虫:从m3u8文件里提取小视频的正确操作
  本次就以这个视频为例,流程如下:
  1. 找到视频对应的.m3u8文件
  2. 解析.m3u8文件,从中提取.ts视频的url
  3. 下载.ts格式的视频
  4. 解密.ts格式的视频(如果视频流没有加密,则该步不是必须的)
  5. 合成.mp4或其他格式的视频

# 第1步,我载了m3u8文件,也可以直接使用m3u8文件对应的url
	playlist = m3u8.load(uri='./data/index.m3u8')

	# 第2步,提取URL
	for seg in playlist.segments:
        print(seg.uri)
    
    # 第3步,下载ts视频
    with open('xxxxx.ts', 'wb') as f:
        ts = get_ts(url)
        f.write(ts)
   
	# 第4步,解密
	cipher_text = pad(data_to_pad=cipher_text, block_size=AES.block_size)
    aes = AES.new(key=key, mode=AES.MODE_CBC, iv=iv)
    cipher_text = aes.decrypt(cipher_text)
    
	# 第5步,合成
	files = glob.glob(os.path.join('./video', '*.ts'))
    for file in files:
        with open(file, 'rb') as fr, open('./video_de/baitoushan.mp4', 'ab') as fw:
            content = fr.read()
            fw.write(content )

4. 完整代码

# -*- coding: utf-8 -*-
# @Time    : 2021/5/10 20:11
# @Author  : XiaYouRan
# @Email   : youran.xia@foxmail.com
# @File    : video.py
# @Software: PyCharm


from Crypto.Cipher import AES
from Crypto.Util.Padding import pad
from concurrent.futures import ThreadPoolExecutor
import requests
import m3u8
import glob
import os
import time
import logging


logging.getLogger("urllib3").setLevel(logging.WARNING)


def AESDecrypt(cipher_text, key, iv):
    cipher_text = pad(data_to_pad=cipher_text, block_size=AES.block_size)
    aes = AES.new(key=key, mode=AES.MODE_CBC, iv=iv)
    cipher_text = aes.decrypt(cipher_text)
    # clear_text = unpad(padded_data=cipher_text, block_size=AES.block_size)
    return cipher_text


headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                         'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}


def get_ts(url):
    try:
        response = requests.get(url, verify=False)
        response.raise_for_status()
        response.encoding = 'utf-8'
        return response.content
    except Exception as err:
        print(err)
        return b''


def save_ts(url, index):
    filename = os.path.join('./video', str(index).zfill(5) + '.ts')
    with open(filename, 'wb') as f:
        ts = get_ts(url)
        f.write(ts)
    print(filename + ' is ok!')


if __name__ == '__main__':
    playlist = m3u8.load(uri='./data/index.m3u8')

	# 线程池,引入index可以防止合成时视频发生乱序
    with ThreadPoolExecutor(max_workers=10) as pool:
        for index, seg in enumerate(playlist.segments):
            pool.submit(save_ts, seg.uri, index)

    key = get_ts(playlist.keys[-1].uri)

    files = glob.glob(os.path.join('./video', '*.ts'))
    for file in files:
        with open(file, 'rb') as fr, open('./video_de/baitoushan.mp4', 'ab') as fw:
            content = fr.read()
            encontent = AESDecrypt(content, key=key, iv=key)
            fw.write(encontent)
        print(file + ' is ok!')

下载.ts文件效果如下:

Python爬虫:从m3u8文件里提取小视频的正确操作
  合成.mp4文件效果如下:

Python爬虫:从m3u8文件里提取小视频的正确操作

Python爬虫:从m3u8文件里提取小视频的正确操作

5. 结束语

Musicer开源代码仓库


Musicer音乐爬虫已经开源了哦,持续更新中,欢迎来踩来Star哦!ヾ(≧∇≦*)ヾ

Python 相关文章推荐
介绍Python中的__future__模块
Apr 27 Python
Python插件virtualenv搭建虚拟环境
Nov 20 Python
python+matplotlib绘制简单的海豚(顶点和节点的操作)
Jan 02 Python
对Python Pexpect 模块的使用说明详解
Feb 14 Python
python3实现表白神器
Apr 09 Python
python3 selenium自动化 下拉框定位的例子
Aug 23 Python
tensorflow查看ckpt各节点名称实例
Jan 21 Python
TensorFlow 读取CSV数据的实例
Feb 05 Python
Python获取、格式化当前时间日期的方法
Feb 10 Python
python3 配置logging日志类的操作
Apr 08 Python
Pytorch生成随机数Tensor的方法汇总
Sep 09 Python
Python SQLAlchemy库的使用方法
Oct 13 Python
MATLAB 全景图切割及盒图显示的实现步骤
使用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())
May 14 #Python
PyQt5爬取12306车票信息程序的实现
python flask框架快速入门
如何将numpy二维数组中的np.nan值替换为指定的值
May 14 #Python
使用numpy nonzero 找出非0元素
May 14 #Python
Python机器学习之KNN近邻算法
May 14 #Python
You might like
php生成文件
2007/01/15 PHP
解决文件名解压后乱码的问题 将文件名进行转码的代码
2012/01/10 PHP
zf框架的校验器使用使用示例(自定义校验器和校验器链)
2014/03/13 PHP
smarty模板引擎中自定义函数的方法
2015/01/22 PHP
在laravel中实现ORM模型使用第二个数据库设置
2019/10/24 PHP
javascript跨域刷新实现代码
2011/01/01 Javascript
JQuery选择器特辑 详细小结
2012/05/14 Javascript
jQuery实现自动调整字体大小的方法
2015/06/15 Javascript
js HTML5 Canvas绘制转盘抽奖
2020/09/13 Javascript
详解nodejs微信公众号开发——4.自动回复各种消息
2017/04/11 NodeJs
JavaScript数据结构中串的表示与应用实例
2017/04/12 Javascript
JS获取子、父、兄节点方法小结
2017/08/14 Javascript
webpack构建换肤功能的思路详解
2017/11/27 Javascript
js 数组详细操作方法及解析合集
2018/06/01 Javascript
浅析vue-router jquery和params传参(接收参数)$router $route的区别
2018/08/03 jQuery
关于微信小程序bug记录与解决方法
2018/08/15 Javascript
Vue项目History模式404问题解决方法
2018/10/31 Javascript
layui递归实现动态左侧菜单
2019/07/26 Javascript
[20:30]职业巡回赛回顾
2018/08/09 DOTA
基于使用paramiko执行远程linux主机命令(详解)
2017/10/16 Python
Python 等分切分数据及规则命名的实例代码
2019/08/16 Python
Python aiohttp百万并发极限测试实例分析
2019/10/26 Python
python IDLE添加行号显示教程
2020/04/25 Python
详解Python中的编码问题(encoding与decode、str与bytes)
2020/09/30 Python
css3 给背景设置渐变色的方法
2019/09/12 HTML / CSS
阿拉伯世界最大的电子卖场:Souq埃及
2016/08/01 全球购物
数以千计的折扣工业产品:ESE Direct
2018/05/20 全球购物
征婚广告词
2014/03/17 职场文书
教师师德演讲稿
2014/05/06 职场文书
政府信息公开实施方案
2014/05/09 职场文书
社区文艺活动方案
2014/08/19 职场文书
2014司机年终工作总结
2014/12/05 职场文书
民间借贷纠纷答辩状
2015/08/03 职场文书
高中16字霸气押韵班级口号集锦!
2019/06/27 职场文书
写作技巧:如何撰写一份优秀的营销策划书
2019/08/13 职场文书
SQL Server数据库查询出现阻塞之性能调优
2022/04/10 SQL Server