【python】M3U8下载器脚本

2023年6月12日上午5:31 • Python • 阅读 59

【python】M3U8下载器脚本

脚本目标：

输入M3U8文件的链接，得到视频

2.使用异步操作，这样可以快很多，不加锁，因为懒得写，而且影响不大

已知条件：

1.m3u8文件其实就是一个记录了ts文件下载链接的工具文件，每个ts文件就是视频的一部分，把所有ts文件下载下来，合并就可以得到完整的视频

脚本思路：

1.创建一个文件夹，用来存放下载好的m3u8文件和下载好的ts文件

2.下载并打开m3u8文件，根据m3u8文件下载ts文件，这边设计了两种情况，a.ts的下载链接是完整的 b.ts的下载链接是需要拼接的

3.根据m3u8文件自动校验文件是否下载完整

4.由于很多时候ts文件的命名是没有规律的，所以再次打开m3u8文件，根据里面的顺序，以追加的形式写入到一个新的ts文件里

代码实现：

先创建好文件夹，这边使用了相对路径

def init():
    if os.path.exists("./temp_data"):
        return
    else:
        os.mkdir("./temp_data")

得到m3u8下载链接，获得m3u8文件名，这边假设是https://xxxxxxx126.net/nos/hls/2019/03/13/1214418271_9xxxxxxx32465d1f4c8_sd.m3u8，那么就设置”1214418271_9xxxxxxx32465d1f4c8_sd.m3u8″为文件名

url =str(input("输入m3u8文件url >"))
name = url.rsplit("/")[-1]

下载m3u8文件

def m3u8_files_download(url,name):   #下载m3u8文件
    resp = requests.get(url)
    with open(f"temp_data/{name}.txt",mode="wb") as f:
        f.write(resp.content)
    resp.close()

给出第一个ts的下载链接，用户自己判断一下是需要拼接的，还是无需拼接的完整url

def get_type(name):
    with open(f"temp_data/{name}.txt","r") as f:
         for line in f:
            if line.startswith("#"):
                continue
            else:
                print("内容为:",line)
                print("选择模式： 1.直接下载型  2.拼接型")
                choice = input(">")
                return str(choice)

写一个启动器，根据不同的选择，创建不同的任务，创建的任务为异步任务

async def starter(choice,name):
    tasks=[]
    async with aiohttp.ClientSession() as session:
        if choice =="1":
            with open(f"/temp_data/{name}.txt","r") as f:
                for line in f:
                    if line.startswith("#"):
                        continue
                    else:
                        download_url = line.strip()
                        line = line.split("/")
                        file_name = str(line[-1]).strip()  # 得下载的ts文件名
                        task = download_ts(file_name,download_url,session)
                        tasks.append(task)
                print("文件下载中.....")
                await asyncio.wait(tasks)  # 等待任务执行结束
                print("文件下载完成")
        if choice=="2":
            url = str(input("输入拼接的url>"))
            with open(f"temp_data/{name}.txt","r") as f:
                for line in f:
                    if line.startswith("#"):
                        continue
                    else:
                        line = line.strip()
                        file_name = line # 得下载的ts文件名
                        download_url = url+line
                        task = download_ts(file_name,download_url,session)
                        tasks.append(task)
                print("文件下载中.....")
                await asyncio.wait(tasks)  # 等待任务执行结束
                print("文件下载完成")

下载ts文件，用aiohttp来代理requests

async def aio_download_ts(download_url,line_name,session):
    async with session.get(download_url,headers=header) as resp:
        async with aiofiles.open(f"temp_data/{line_name}",mode="wb") as f:
            await f.write(await resp.content.read())
        print(f"文件{line_name}下载完成！！")

校验文件的完整性：依据m3u8文件，判断文件是否存在

def verification(name):
    files=[]
    with open(f"temp_data/{name}.txt","r") as f:
        for line in f:
            if line.startswith("#"):
                continue
            else:
                line=line.strip()
                if os.path.exists(f"temp_data/{line}"):
                    continue
                else:
                    files.append(line)
        print("以下文件缺失，请手动查看:",files)

合并文件，实现的方式时创建一个ts文件，依据m3u8文件里的文件顺序，依次将二进制文件写入到新的ts文件里

def merge_ts(file_name):
    new_name = str(input("输入合并后的文件名>"))
    with open(f"./{new_name}.ts", "ab+") as f:
        with open(f"temp_data/{file_name}.txt","r") as f2:
            for line in f2:
                if line.startswith("#"):
                    continue
                else:
                    line = line.strip().split("/")[-1].strip()
                    ts_name = line
                    try:
                        with open(f"temp_data/{ts_name}","rb") as f3:
                            f.write(f3.read())
                    except:
                        continue

最后再写一个主函数，执行这一切

def main():
    init()
    url =str(input("输入m3u8文件url >"))
    name = url.rsplit("/")[-1]
    m3u8_files_download(url,name)#下载m3u8文件
    choice=get_type(name)
    asyncio.run(starter(choice,name))
    print("校验文件完整性")
    verification(name)
    print("是否合并文件？   Y/N")
    if str(input(">"))=="Y":
        merge_ts(name)
    else:
        print("结束")

最终功能代码

import aiohttp
import aiofiles
import asyncio
import requests
import os
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36"}
def merge_ts(file_name):
    new_name = str(input("输入合并后的文件名>"))
    with open(f"./{new_name}.ts", "ab+") as f:
        with open(f"temp_data/{file_name}.txt","r") as f2:
            for line in f2:
                if line.startswith("#"):
                    continue
                else:
                    line = line.strip().split("/")[-1].strip()
                    ts_name = line
                    try:
                        with open(f"temp_data/{ts_name}","rb") as f3:
                            f.write(f3.read())
                    except:
                        continue
async def aio_download_ts(download_url,line_name,session):
    async with session.get(download_url,headers=header) as resp:
        async with aiofiles.open(f"temp_data/{line_name}",mode="wb") as f:
            await f.write(await resp.content.read())
        print(f"文件{line_name}下载完成！！")
def m3u8_files_download(url,name):   #下载m3u8文件
    resp = requests.get(url)
    with open(f"temp_data/{name}.txt",mode="wb") as f:
        f.write(resp.content)
    resp.close()
def get_type(name):
    with open(f"temp_data/{name}.txt","r") as f:
         for line in f:
            if line.startswith("#"):
                continue
            else:
                print("内容为:",line)
                print("选择模式： 1.直接下载型  2.拼接型")
                choice = input(">")
                return str(choice)
def init():
    if os.path.exists("./temp_data"):
        return
    else:
        os.mkdir("./temp_data")
def verification(name):
    files=[]
    with open(f"temp_data/{name}.txt","r") as f:
        for line in f:
            if line.startswith("#"):
                continue
            else:
                line=line.strip()
                if os.path.exists(f"temp_data/{line}"):
                    continue
                else:
                    files.append(line)
        print("以下文件缺失，请手动查看:",files)
async def download_ts(file_name,download_url,session):

    async with session.get(download_url,headers=header) as resp:
        async with aiofiles.open(f"temp_data/{file_name}",mode="wb") as f:
            await f.write(await resp.content.read())

async def starter(choice,name):
    tasks=[]
    async with aiohttp.ClientSession() as session:
        if choice =="1":
            with open(f"/temp_data/{name}.txt","r") as f:
                for line in f:
                    if line.startswith("#"):
                        continue
                    else:
                        download_url = line.strip()
                        line = line.split("/")
                        file_name = str(line[-1]).strip()  # 得下载的ts文件名
                        task = download_ts(file_name,download_url,session)
                        tasks.append(task)
                print("文件下载中.....")
                await asyncio.wait(tasks)  # 等待任务执行结束
                print("文件下载完成")
        if choice=="2":
            url = str(input("输入拼接的url>"))
            with open(f"temp_data/{name}.txt","r") as f:
                for line in f:
                    if line.startswith("#"):
                        continue
                    else:
                        line = line.strip()
                        file_name = line # 得下载的ts文件名
                        download_url = url+line
                        task = download_ts(file_name,download_url,session)
                        tasks.append(task)
                print("文件下载中.....")
                await asyncio.wait(tasks)  # 等待人物执行结束
                print("文件下载完成")

def main():
    init()
    url =str(input("输入m3u8文件url >"))
    name = url.rsplit("/")[-1]
    m3u8_files_download(url,name)#下载m3u8文件
    choice=get_type(name)
    asyncio.run(starter(choice,name))
    print("校验文件完整性")
    verification(name)
    print("是否合并文件？   Y/N")
    if str(input(">"))=="Y":
        merge_ts(name)
    else:
        print("结束")
main()

使用自欺欺人术，直接把ts文件后缀改成MP4，看着舒服点。

实现效果

视频打开能正常观看，脚本完成

后记：关于脚本的使用

理论上把aiohttp，aiofiles，asyncio三个库安装好，复制粘贴应该就可以直接用，也可以把一些需要手工提供的量，在脚本中写死，以在不同的爬虫中使用。

ENDING……….

Original: https://www.cnblogs.com/water-wells/p/15797812.html
Author: 水风井
Title: 【python】M3U8下载器脚本

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/603131/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

drf — 视图类：GenericAPIView

视图类：GenericAPIView 作用：通用视图类主要作用就是把视图中的独特的代码抽取出来，让视图方法中的代码更加通用，方便把通用代码进行简写。新增的功能：继承自 APIV…

Python 2023年6月10日
0092
mongodb

一、安装官网没办法下载，点击链接没反应，按了F12，好歹链接能点了，下载下来的直接是个安装包，也不是可安装文件。运行monogd也失败了。一通搜，搜到这个链接里可以下载msi可…

Python 2023年10月6日
0038
[C++] 例题 2.7.1 用栈实现简易计算器

前置技能栈是一种限制访问端口的线性表，栈的所有操作都先定在线性表的一端进行。表首被称为” 栈底 “，表尾被称为” 栈顶 “（这里书…

Python 2023年6月6日
0043
python （模块）Pandas DataFrame

DataFrame：一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame即有行索引也有列索引，可以被看做是由Series组…

Python 2023年8月21日
0049
Pandas复习笔记–自用

数据分析：1.数据处理：1>.Pandas:1).numpy:1.概述：numpy是专注于数值计算的拓展包，其算法库是由C写成的（调用C的API），提供了核心数据类型ndar…

Python 2023年8月8日
0030
解决Font family [‘sans-serif‘] not found的问题

回答1：这个错误是由于CentOS系统无法找到指定的字体库导致的。”sans- “是一个通用的字体家族名称，CentOS默认情况下没有安装这个字体家族。因…

Python 2023年9月3日
0038
python的Django项目配置运行（pyCharm）

序最近公司又来来一次优化，人手就变紧张了，但是事还是得干啊。所以，我也可能即将被拉出来补位。那么我个人也可能刚好趁这个时期深入下，不管怎么说，学习是个人的事情。今天就来跟大家分享下…

Python 2023年8月3日
0077
【蓝桥真题】——2022年蓝桥pythonB组省赛真题+解析+代码（通俗易懂版）

全文目录 🏆混奖感言 ⭐试题 A: 排列字母 💡思路点拨 🍞代码详解 ⭐试题 B: 寻找整数 💡思路点拨 🍞代码详解 ⭐试题 C: 纸张尺寸 🚀传送锚点 💡思路点拨 🍞代码详解 ⭐…

Python 2023年8月1日
0044
Python 排序列表——如何按降序或升序排序

在 Python 中，你可以使用 sorted() 方法或 sort() 方法对数据进行排序。在本文中，我将提供 sorted() 和 sort() 方法的代码示例，并解释两者之…

Python 2023年8月2日
0049
[CUDA报错] CUDA error: device-side assert triggered

问题描述昨天在实现新想法的时候遇到这样的一个报错 CUDA error: device-side assert triggered 触发了设备端断言报错的地方在计算loss的部分…

Python 2023年8月23日
0056
WinDbg Preview安装以及符号表配置

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月19日
0058
【Pandas】优化读取文件内存占用过大的问题

编写于2022.11.6 1、内存占用计算做了个小实验，发现pandas读取文件时，内存占用是真的高： import sys file = r"G:\test.csv&…

Python 2023年8月18日
0065
python数据分析学生成绩查询系统_python数据分析-学生成绩分析

python数据分析-学生成绩分析 python数据分析-学生成绩分析目标：分析学生成绩的影响因素 1.导入原始数据，以及需要用到的库 import pandas as pd i…

Python 2023年8月7日
0074
python入门基础(4)–列表增、删、改及操作

一、先定义names的列表，其中有5个名字 names=[‘xiaozhan’,’caiyilin’,’huangxia…

Python 2023年5月24日
00110
【matplotlib&torchvision&torch】图片的保存，呈现（plt.imshow），读取；将tensor保存为图片

经过 pytorch 模型输出的图像以 array 的形式呈现，其shape 如下（图片数量，通道数，长，宽），本文结合代码，介绍如何使用 matplotlib.pyplot.im…

Python 2023年8月30日
0068
009 Django 应用和分布式路由

应用和分布式路由应用和分布式路由创建应用配置分布式路由应用下的模板假如我们现在要做的是一个很大的网站，这些网站里面有很多的分区，这么多的分区我们全部都放在同一个 view…

Python 2023年6月12日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【python】M3U8下载器脚本

最终功能代码

大家都在看