Python通过m3u8文件下载合并ts视频的操作


Posted in Python onApril 16, 2021

前段时间,接到一个需求,要求下载某一个网站的视频,然后自己从网上查阅了相关的资料,在这里做一个总结。

1. m3u8文件

m3u8是苹果公司推出一种视频播放标准,是一种文件检索格式,将视频切割成一小段一小段的ts格式的视频文件,然后存在服务器中(现在为了减少I/o访问次数,一般存在服务器的内存中),通过m3u8解析出来路径,然后去请求,是现在比较流行的一种加载方式。目前,很多新闻视频网站都是采用这种模式去加载视频。

M3U8文件是指UTF-8编码格式的M3U文件。M3U文件是记录了一个索引纯文本文件,打开它时播放软件并不是播放它,而是根据它的索引找到对应的音视频文件的网络地址进行在线播放。原视频数据分割为很多个TS流,每个TS流的地址记录在m3u8文件列表中。

下面就是m3u8文件的格式。

#EXTM3U
#EXT-X-VERSION:3
#EXT-X-MEDIA-SEQUENCE:0
#EXT-X-ALLOW-CACHE:YES
#EXT-X-TARGETDURATION:15
#EXTINF:6.916667,
out000.ts
#EXTINF:10.416667,
out001.ts
#EXTINF:10.416667,
out002.ts
#EXTINF:1.375000,
out003.ts
#EXTINF:1.541667,
out004.ts
#EXTINF:7.666667,
out005.ts
#EXTINF:10.416667,

2. ts文件处理

只有m3u8文件,需要下载ts文件

ts文件能正常播放,但太多而小,需要合并 有ts文件

但因为被加密无法播放,需要解码

在这里我只记录下前两个步骤,因为,我目前研究的比较少,还没有遇到ts被加密的情况。

3. 分析举例

那么下面,我就正式举一个网站,第一财经网(直接点击)跟大家正式的讲解下。

这是该网站的视频。如下图:

Python通过m3u8文件下载合并ts视频的操作

点击第一个视频,这就是我们这次要爬取的视频。

Python通过m3u8文件下载合并ts视频的操作

然后鼠标右键点击,选择"检查" 或者按F12键,进入开发者模式,查看网页代码。

然后,点击Network ,再点击other,寻找请求地址中带有m3u8和ts标记的请求地址。

不懂,请看下图。有一点,很重要。网站通过切割后ts加载视频,并不是没有规律的,而是通过m3u8文件附带的。也就说,网站一定是先加载m3u8文件,然后根据m3u8文件,去请求ts文件。所以,如果你找不到m3u8文件的话,你可以先找第一个ts文件,然后往上面翻,一定能找到m3u8文件。

Python通过m3u8文件下载合并ts视频的操作

再点击这个m3u8文件,右侧对应的就是它的请求地址。

Python通过m3u8文件下载合并ts视频的操作

请求地址如下:

https://ycalvod.yicai.com/record/live/cbn/ca233887-1443-4bdf-b762-3b4b3a217085_LD.m3u8?auth_key=1575703722-0-0-6f09e9a156491f027a035e31c238c48c&ycfrom=yicaiwww

你可以把上面那个地址,输入浏览器地址框内,下载下来。也可以通过查看源码,找到该功能的对应的html代码。

这是下载下来的m3u8文件。

Python通过m3u8文件下载合并ts视频的操作

Python通过m3u8文件下载合并ts视频的操作

从图片可以看出来,每一个ts文件都是相对的地址,所以下面我们就需要找到绝对地址。

Python通过m3u8文件下载合并ts视频的操作

ts文件地址如下:

https://ycalvod.yicai.com/record/live/cbn_yld/1575111614_3446078.ts

上面,我们已经把这个网站的视频加载模式分析的很透彻,下面就开始撸代码了。

4. 获取ts文件

def getTsUrl():
    ts_url_list = []
    baseUrl = "https://ycalvod.yicai.com/record/live"
    with open("ca233887-1443-4bdf-b762-3b4b3a217085_LD.m3u8", "r", encoding="utf-8") as f:
        m3u8Contents = f.readlines()
        for content in m3u8Contents:
            if content.endswith("ts\n"):
                ts_Url = baseUrl + content.replace("\n", "").replace("..", "")
                ts_url_list.append(ts_Url)
                print(ts_Url)
    return ts_url_list

5. 下载ts文件

def download_ts_video(download_path, ts_url_list):
    download_path = r"C:\Users\Administrator\Desktop\AiShu\下载视频\TS视频"
    for i in range(len(ts_url_list)):
        ts_url = ts_url_list[i]
        try:
            response = requests.get(ts_url, stream=True, verify=False)
        except Exception as e:
            print("异常请求:%s" % e.args)
            return
        ts_path = download_path + "\{}.ts".format(i)
        with open(ts_path, "wb+") as file:
            for chunk in response.iter_content(chunk_size=1024):
                if chunk:
                    file.write(chunk)
    print("TS文件下载完毕!!")

这就是我本地下载好的ts切割视频

Python通过m3u8文件下载合并ts视频的操作

6. 合并TS视频

def heBingTsVideo(download_path,hebing_path):
    all_ts = os.listdir(download_path)
    with open(hebing_path, 'wb+') as f:
        for i in range(len(all_ts)):
            ts_video_path = os.path.join(download_path, all_ts[i])
            f.write(open(ts_video_path, 'rb').read())
    print("合并完成!!")

最后的结果如下:

Python通过m3u8文件下载合并ts视频的操作

7. 完整的代码

有兴趣的小伙伴,可以研究下。

import requests,os
def getTsUrl():
    ts_url_list = []
    baseUrl = "https://ycalvod.yicai.com/record/live"
    with open("ca233887-1443-4bdf-b762-3b4b3a217085_LD.m3u8", "r", encoding="utf-8") as f:
        m3u8Contents = f.readlines()
        for content in m3u8Contents:
            if content.endswith("ts\n"):
                ts_Url = baseUrl + content.replace("\n", "").replace("..", "")
                ts_url_list.append(ts_Url)
                print(ts_Url)
    return ts_url_list
def download_ts_video(download_path, ts_url_list):
    download_path = r"C:\Users\Administrator\Desktop\AiShu\下载视频\TS视频"
    for i in range(len(ts_url_list)):
        ts_url = ts_url_list[i]
        try:
            response = requests.get(ts_url, stream=True, verify=False)
        except Exception as e:
            print("异常请求:%s" % e.args)
            return
        ts_path = download_path + "\{}.ts".format(i)
        with open(ts_path, "wb+") as file:
            for chunk in response.iter_content(chunk_size=1024):
                if chunk:
                    file.write(chunk)
    print("TS文件下载完毕!!")
def heBingTsVideo(download_path,hebing_path):
    all_ts = os.listdir(download_path)
    with open(hebing_path, 'wb+') as f:
        for i in range(len(all_ts)):
            ts_video_path = os.path.join(download_path, all_ts[i])
            f.write(open(ts_video_path, 'rb').read())
    print("合并完成!!")
if __name__ == '__main__':
    download_path = r"C:\Users\Administrator\Desktop\AiShu\下载视频\TS视频"
    hebing_path = r"C:\Users\Administrator\Desktop\AiShu\下载视频\合并TS视频\第一财经.mp4"
    ts_url_list = getTsUrl()
    download_ts_video(download_path, ts_url_list)
    heBingTsVideo(download_path,hebing_path)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方,望不吝赐教。

Python 相关文章推荐
通过C++学习Python
Jan 20 Python
Python 记录日志的灵活性和可配置性介绍
Feb 27 Python
python批量识别图片指定区域文字内容
Apr 30 Python
django框架防止XSS注入的方法分析
Jun 21 Python
使用Python中的reduce()函数求积的实例
Jun 28 Python
Django ORM 自定义 char 类型字段解析
Aug 09 Python
关于PyTorch 自动求导机制详解
Aug 18 Python
opencv 获取rtsp流媒体视频的实现方法
Aug 23 Python
python读取ini配置文件过程示范
Dec 23 Python
30行Python代码实现高分辨率图像导航的方法
May 22 Python
在Pytorch中使用Mask R-CNN进行实例分割操作
Jun 24 Python
Python Selenium XPath根据文本内容查找元素的方法
Dec 07 Python
Python实现Telnet自动连接检测密码的示例
AI:如何训练机器学习的模型
python 用递归实现通用爬虫解析器
MATLAB 如何求取离散点的曲率最大值
用Python远程登陆服务器的步骤
Matlab求解数组中的最大值及它所在的具体位置
Apr 16 #Python
python 机器学习的标准化、归一化、正则化、离散化和白化
Apr 16 #Python
You might like
php win下Socket方式发邮件类
2009/08/21 PHP
PHP采用XML-RPC构造Web Service实例教程
2014/07/16 PHP
PHP中文编码小技巧
2014/12/25 PHP
ThinkPHP 模板引擎使用详解
2017/05/07 PHP
基于dom编程中 动态创建与删除元素的使用
2013/04/17 Javascript
JavaScript中对象属性的添加和删除示例
2014/05/12 Javascript
JQuery实现table行折叠效果以JSON做数据源
2014/05/26 Javascript
javascript弹出窗口实现代码
2015/11/12 Javascript
跟我学习javascript的异步脚本加载
2015/11/20 Javascript
Angular ng-class详解及实例代码
2016/09/19 Javascript
BootStrap下拉菜单和滚动监听插件实现代码
2016/09/26 Javascript
vue+web端仿微信网页版聊天室功能
2019/04/30 Javascript
在 Vue 中使用 JSX 及使用它的原因浅析
2020/02/10 Javascript
jQuery cookie的公共方法封装和使用示例
2020/06/01 jQuery
Vue切换div显示隐藏,多选,单选代码解析
2020/07/14 Javascript
js实现碰撞检测
2021/01/29 Javascript
python练习程序批量修改文件名
2014/01/16 Python
零基础写python爬虫之打包生成exe文件
2014/11/06 Python
Android基于TCP和URL协议的网络编程示例【附demo源码下载】
2018/01/23 Python
python 删除指定时间间隔之前的文件实例
2018/04/24 Python
django1.11.1 models 数据库同步方法
2018/05/30 Python
python ipset管理 增删白名单的方法
2019/01/14 Python
Python+OpenCV图片局部区域像素值处理改进版详解
2019/01/23 Python
python打印文件的前几行或最后几行教程
2020/02/13 Python
浅谈ROC曲线的最佳阈值如何选取
2020/02/28 Python
解决echarts中饼图标签重叠的问题
2020/05/16 Python
Python爬虫过程解析之多线程获取小米应用商店数据
2020/11/14 Python
联想中国官方商城:Lenovo China
2017/10/18 全球购物
瑞典快乐袜子:Happy Socks
2018/02/16 全球购物
linux面试题参考答案(7)
2014/07/24 面试题
介绍一下RMI的基本概念
2016/12/17 面试题
校园达人秀策划书
2014/01/12 职场文书
大学优秀班主任事迹材料
2014/05/02 职场文书
幼儿园安全教育月活动总结
2015/05/08 职场文书
Python天气语音播报小助手
2021/09/25 Python
python+opencv实现目标跟踪过程
2022/06/21 Python