Python爬取全球最大视频网站YouTube视频

2023年5月24日上午2:01 • Python • 阅读 94

前言

作为目前全世界最大的视频网站，它几乎全是用Python来写的
该网站目前是行业内的在线视频服务提供商，其系统每天处理数千万个视频片段，为全球数千名用户提供高水平的视频上传、分发、展示和浏览服务。2015年2月，央视首次将春晚推送到网站。

[En]

The website is currently an online video service provider in the industry, and its system processes tens of millions of video clips every day, providing high-level video upload, distribution, display and browsing services for thousands of users around the world. In February 2015, CCTV pushed the Spring Festival Gala to the website for the first time.
今天，我们就要用Python来快速批量下载该网站的视频

开发环境

版本： python 3.8
编辑器：pycharm 2021.2
第三方模块：requests + tqdm

所需模块

import requests
import re
import json
from tqdm import tqdm
import os

开始代码编写

请求数据

headers = {
    'cookie': 'VISITOR_INFO1_LIVE=9qZVrzB27uI; PREF=f4=4000000&tz=Asia.Shanghai; _ga=GA1.2.621834420.1648121145; _gcl_au=1.1.1853038046.1648121145; NID=511=Zc1APdmEbCD-iqVNVgI_vD_0S3LVI3XSfl-wUZEvvMU2MLePFKsQCaKUlUtchHSg-kWEVMGOhWUbxpQMwHeIuLjhxaslwniMh1OsjVfmOeTfhpwcRYpMgqpZtNQ7qQApY21xEObCvIez6DCMbjRhRQ5P7siOD3X87QX0CFyUxmY; OTZ=6430350_24_24__24_; GPS=1; YSC=0E115KqM_-I; GOOGLE_ABUSE_EXEMPTION=ID=d02004902c3d0f4d:TM=1648620854:C=r:IP=47.57.243.77-:S=YmZXPW7dxbu83bDuauEpXpE; CONSISTENCY=AGDxDeNysJ2boEmzRP4v6cwgg4NsdN4-FYQKHCGhA0AeW1QjFIU1Ejq1j8l6lwAc6c-pYTJiSaQItZ1M6QeI1pQ3wictnWXTOZ6_y8EKlt0Y_JdakwW6srR39-NLuPgSgXrXwtS0XTUGXpdnt4k3JjQ',
    'referer': 'https://www.youtube.com/results?search_query=jk%E7%BE%8E%E5%A5%B3',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36'
}
url = 'https://www.有土比.com/watch?v=ImoXcSpR_io'
response = requests.get(url=url, headers=headers)

解析数据

json_str = re.findall('var ytInitialPlayerResponse = (.*?);var', response.text)[0]
json_data = json.loads(json_str)
video_url = json_data['streamingData']['adaptiveFormats'][0]['url']
audio_url = json_data['streamingData']['adaptiveFormats'][-2]['url']
title = json_data['videoDetails']['title']
title = title.replace(' ', '')
title = re.sub(r'[\/:|?*"<>]', '', title)

视频数据

video_pbar = tqdm(total=file_size)
with open(f'{title}.mp4', mode='wb') as f:
    for video_chunk in video.iter_content(1024*1024*2):
        f.write(video_chunk)
        video_pbar.set_description(f'正在下载{title}视频中......')
        video_pbar.update(1024*1024*2)
    video_pbar.set_description('下载完成！')
    video_pbar.close()

音频数据

audio = requests.get(audio_url, stream=True)
file_size = int(audio.headers.get('Content-Length'))
audio_pbar = tqdm(total=file_size)
with open(f'{title}.mp3', mode='wb') as f:
    for audio_chunk in audio.iter_content(1024*1024*2):
        f.write(audio_chunk)
        audio_pbar.set_description(f'正在下载{title}音频中......')
        audio_pbar.update(1024*1024*2)
    audio_pbar.set_description('下载完成！')
    audio_pbar.close()

合并音频和视频

def merge(title):
    ffmpeg = r'D:\Download\ffmpeg\bin\ffmpeg.exe -i ' + title + '.mp4 -i ' + title + '.mp3 -acodec copy -vcodec copy ' + title + '-out.mp4'
    os.popen(ffmpeg)

Original: https://www.cnblogs.com/qshhl/p/16106887.html
Author: 松鼠爱吃饼干
Title: Python爬取全球最大视频网站YouTube视频

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/500086/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据清洗-Pandas和DateFrame

文章目录数据清洗 * Pandas 数据结构：Series – 创建Series 常用属性 Series特性 + 数组特性 * 索引与切片字典特性 * 通过索引标签…

Python 2023年8月21日
0074
numpy repeat

import numpy as np from scipy.spatial.distance import pdist, squareform MM = np.array([[1,…

Python 2023年8月27日
0053
python编程运行慢_Pygame程序运行缓慢。为什么？

我正在做一个关于pygame的Tamagotchi项目，在这个早期阶段，这个程序运行得非常慢。你知道为什么吗？还有，有什么方法可以加快速度吗？在这是我目前为止的代码：impor…

Python 2023年9月21日
0032
sql注入

pypolaris posted on2021-06-03 22:19 Go_Forward 阅读(22 ) 评论() 编辑 Original: https://www.cnblo…

Python 2023年6月12日
0074
springcloud3 EurekaClient集群的搭建2

一概述 1.1 概述本文主要是搭建集成eurekaserver的几个客户端，即服务提供者，消费者。架构图如下所示 1.2 使用eureka整合的优点使用Eureka管理注册的…

Python 2023年9月26日
0039
分层索引

分层索引时pandas的重要特性，允许你在一个轴上拥有多个（两个或两个以上）索引层级。创建分层索引Series，以列表的列表（或数组）作为索引。 data = pd.Series(…

Python 2023年8月8日
0071
python k-means聚类算法物流分配预测实战（超详细，附源码）

数据集和地图可以点赞关注收藏后评论区留下QQ邮箱或者私信博主要聚类是一类机器学习基础算法的总称。聚类的核心计算过程是将数据对象集合按相似程度划分成多个类，划分得到的每个类称为聚…

Python 2023年8月1日
0068
Bert在fine-tune训练时的技巧：①冻结部分层参数、②weight-decay (L2正则化)、③warmup_proportion、④

作为一个NLPer，bert应该是会经常用到的一个模型了。但bert可调参数很多，一些技巧也很多，比如加上weight-decay, layer初始化、冻结参数、只优化部分层参数等…

Python 2023年10月8日
0054
django-admin startproject + 项目名称创建django项目实例

一、初始化项目 django-admin startproject + 项目名称外层wechat是项目目录，跟项目有关的总体的信息放在内层的wechat目录里面二、创建app…

Python 2023年8月5日
0052
Python编程|手把手教植物大战僵尸，代码开源

前言如题，手把手教Python实现植物大战僵尸游戏，代码简单易学，无需额外安装Python包，只要有pygame即可，文末获取全部素材及源代码~ 视频演示效果：https://w…

Python 2023年9月16日
0038
pytest文档38-allure.step()添加测试用例步骤

前言一般流程性的测试用例，写成自动化用例时，步骤较多写起来会比较长。在测试用例里面添加详细的步骤有助于更好的阅读，也方便报错后快速的定位到问题。举个常见的测试场景用例：从登陆开始…

Python 2023年9月11日
0038
关联规则apriori算法_使用Apriori挖掘购物小票关联规则

01 啤酒与尿布说到关联规则，有一个很有名的案例——啤酒与尿布。说，美国一家连锁店发现很多男性会在周四购买尿布和啤酒，这两种看似不相干的商品之间显现出强相关性，于是商家可以将啤酒…

Python 2023年8月8日
0048
Python贪吃蛇 (完整代码+详细注释+粘贴即食）

文章目录代码运行截图笔记补充参考博客（阿里嘎多！）代码 ”’ 游戏玩法：回车开始游戏；空格暂停游戏/继续游戏；方向键/wsad控制小蛇走向 ”’ ”’ 思路：用列表…

Python 2023年8月2日
0081
如何制作python检查小软件_如何用Python制作整蛊小程序

原标题：如何用Python制作整蛊小程序下面的整蛊程序，千万不要发代码，否则就实现不了你整蛊的目的了。完成后一定要打包成一个exe程序，再发给朋友使用。使用 pip inst…

Python 2023年9月24日
0035
如何解决 Pandas 中的 SettingwithCopyWarning 警告

一、SettingWithCopyWarning 是什么？在使用 numpy 和 pandas 的过程当中，如果使用向量化的方法来回测的话，由于经常需要用到赋值操作，很多的操作都…

Python 2023年8月16日
0070
缺陷修改实践——replace函数的运用|思考？

目录 * – 介绍 – 问题出现 – 问题分析 – 解决方法 – + 优化 – 实现 – 总结 …

Python 2023年11月4日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python爬取全球最大视频网站YouTube视频

开发环境

所需模块

请求数据

解析数据

视频数据

音频数据

合并音频和视频

大家都在看