python爬取YouTube视频

2023年5月24日上午2:06 • Python • 阅读 65

最近，我喜欢看视频，所以我四处游荡，终于来到了世界上最大的视频平台。

[En]

Recently, I like to watch videos, so I wander around and finally come to the largest video platform in the world.

心动不如行动，咱们直接用python开整，好看的视频都给它下载下来，完事了喊上表弟一起看~

表弟：

不多哔哔，咱们开始吧~

; 环境模块

开发环境

这里咱们安装Python3 ，推荐3.6-3.8，编辑器还是pycharm，但是可以下载pycharm 2021 ，新版本自带汉化插件，直接安装就可以汉化了。

对于不会说英语的兄弟来说，这是一种福气。

[En]

It’s a blessing for brothers who don’t speak English.

模块
这里本次用到的两个第三方模块需要pip安装一下

requests   # 数据请求模块
tqdm      #进度条配置
Python学习交流群：815624229

没有软件，不会安装软件，不会安装模块、报错了等等，或者Python相关学习资料、代码、视频、解答等等，都在上面的裙了。

我想给你看一段攀登后的视频。

[En]

I would like to show you a video after climbing.

表弟：呸，就一个?就这就这？能不能多放点！

实现步骤

pa虫的步骤讲了这么多遍，不知道各位记住了没有~

首先，让我们打开目标页面，然后搜索我们最喜欢的视频。

[En]

First of all, let’s open the target page and then search for our favorite videos.

至于如何进入这个网站，请慢慢听我说。

[En]

As for how to get into this website, listen to me slowly.

声明一下，我只说怎么去下载，至于怎么进这个网站，这个不是我能教的，大家自行百度，我有点慌~

emmm~

我们不谈这个了，让我们回去寻找我们最喜欢的视频，比如

[En]

Let’s not talk about this, let’s go back to searching for our favorite videos, such as

啊哼，别担心我搜索了什么，这不是重点！

[En]

Ahem, don’t worry about what I searched, that’s not the point!

那我们就以这段视频为例，让我们直截了当。

[En]

Then let’s take this video as an example, let’s be plain.

咱们点开视频，然后按 F12 打开开发者工具，然后刷新网页，去找到我们的数据包内容。

刷新后，它会慢慢加载包，我们可以在里面找到很多内容，我不会详细写了，大家可以看到我的视频，详细的步骤都已经录下来了。

[En]

After refreshing, it will slowly load the packet, we can find a lot of content inside, I will not write in detail, you can see my video, the detailed steps have been recorded.

视频地址：【Python爬取YouTube视频】

为什么不写呢，主要是因为太多了，人不喜欢看，只喜欢看代码，危害~

[En]

Why not write it, mainly because it is too much, people do not like to read, only like to look at the code, harm ~

; 代码展示

导入模块

这些都是需要使用的模块。需要安装的模块都是内置模块，不需要安装。

[En]

These are all the modules that need to be used. The modules that need to be installed are all built-in modules, which do not need to be installed.

import requests   # 数据请求模块
import re     # 正则表达式模块
import json  # 数据类型处理模块
from tqdm import tqdm   #进度条配置
import os    # 处理文件和目录

发送请求获取数据

headers = {
    'cookie': 'VISITOR_INFO1_LIVE=9qZVrzB27uI; PREF=f4=4000000&tz=Asia.Shanghai; _ga=GA1.2.621834420.1648121145; _gcl_au=1.1.1853038046.1648121145; NID=511=Zc1APdmEbCD-iqVNVgI_vD_0S3LVI3XSfl-wUZEvvMU2MLePFKsQCaKUlUtchHSg-kWEVMGOhWUbxpQMwHeIuLjhxaslwniMh1OsjVfmOeTfhpwcRYpMgqpZtNQ7qQApY21xEObCvIez6DCMbjRhRQ5P7siOD3X87QX0CFyUxmY; OTZ=6430350_24_24__24_; GPS=1; YSC=0E115KqM_-I; GOOGLE_ABUSE_EXEMPTION=ID=d02004902c3d0f4d:TM=1648620854:C=r:IP=47.57.243.77-:S=YmZXPW7dxbu83bDuauEpXpE; CONSISTENCY=AGDxDeNysJ2boEmzRP4v6cwgg4NsdN4-FYQKHCGhA0AeW1QjFIU1Ejq1j8l6lwAc6c-pYTJiSaQItZ1M6QeI1pQ3wictnWXTOZ6_y8EKlt0Y_JdakwW6srR39-NLuPgSgXrXwtS0XTUGXpdnt4k3JjQ',
    'referer': 'https://www.youtube.com/results?search_query=jk%E7%BE%8E%E5%A5%B3',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36'
}
url = 'https://www.youtube.com/watch?v=ImoXcSpR_io'
response = requests.get(url=url, headers=headers)
print(response.text)

匹配json数据

json_str = re.findall('var ytInitialPlayerResponse = (.*?);var', response.text)[0]

json字符串转变为字典

json_data = json.loads(json_str)

提取视频链接

video_url = json_data['streamingData']['adaptiveFormats'][0]['url']

提取音频链接

audio_url = json_data['streamingData']['adaptiveFormats'][-2]['url']

提取标题

title = json_data['videoDetails']['title']

替换掉标题当中的空格

title = title.replace(' ', '')

替换标题中的非法字符

[En]

Replace the illegal characters in the title

title = re.sub(r'[\/:|?*"<>]', '', title)
print(video_url)
print(audio_url)
print(title)

向视频链接发送请求

video = requests.get(video_url, stream=True)

获取视频大小

file_size = int(video.headers.get('Content-Length'))

初始化进度条大小

video_pbar = tqdm(total=file_size)

开始保存视频

with open(f'{title}.mp4', mode='wb') as f:
    # 把视频分成 1024 * 1024 * 2 为等分的大小 进行遍历
    for video_chunk in video.iter_content(1024*1024*2):
        # 写入数据
        f.write(video_chunk)
        # 更新进度条
        video_pbar.set_description(f'正在下载{title}视频中......')
        # 更新进度条长度
        video_pbar.update(1024*1024*2)
    # 下载完毕
    video_pbar.set_description('下载完成！')
    # 关闭进度条
    video_pbar.close()

音频同理

audio = requests.get(audio_url, stream=True)
file_size = int(audio.headers.get('Content-Length'))
audio_pbar = tqdm(total=file_size)
with open(f'{title}.mp3', mode='wb') as f:
    for audio_chunk in audio.iter_content(1024*1024*2):
        f.write(audio_chunk)
        audio_pbar.set_description(f'正在下载{title}音频中......')
        audio_pbar.update(1024*1024*2)
    audio_pbar.set_description('下载完成！')
    audio_pbar.close()

使用FFmpeg进行合并

def merge(title):
    ffmpeg = r'D:\Download\ffmpeg\bin\ffmpeg.exe -i ' + title + '.mp4 -i ' + title + '.mp3 -acodec copy -vcodec copy ' + title + '-out.mp4'
    os.popen(ffmpeg)

merge(title)

兄弟们赶紧试试吧！
记得点赞收藏评论，爱你！

[En]

Remember to like the collection comments, love you!

Original: https://www.cnblogs.com/hahaa/p/16089280.html
Author: 轻松学Python
Title: python爬取YouTube视频

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/500138/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL进阶实战6，缓存表、视图、计数器表

一、缓存表和汇总表有时提升性能最好的方法是在同一张表中保存衍生的冗余数据，有时候还需要创建一张完全独立的汇总表或缓存表。缓存表用来存储那些获取很简单，但速度较慢的数据；汇总表…

Python 2023年10月13日
0035
想了解Python中的super 函数么

摘要：经常有朋友问，学 Python 面向对象时，翻阅别人代码，会发现一个 super() 函数，那这个函数的作用到底是什么？实战场景经常有朋友问，学 Python 面向对象时…

Python 2023年11月1日
0032
关于“＜＜“、“＞＞“和“＞＞＞“的个人理解(探索ing)

首先，我发表此文章是因网上大部分对于该三个位运算符，在我看来讲的不是很通俗（当时我是懵逼的，理解后茅塞顿开），所以我整整了我的版本。(仅代表个人看法) 关于原码、反码、补码(重点，…

Python 2023年6月9日
0051
位置计算 & 数据选择

深入浅出Pandas读书笔记 4.4 位置计算原数据在同位置上对移动后的数据相减, 可以传入一个数字来规定移动多少位, 负数代表移动方向相反 s = pd.Series([9, …

Python 2023年8月7日
0042
游戏开发引擎(Pygame)核心方法

Pygame是Python最经典的2D游戏开发第三方库，机巧围棋基于Pygame游戏开发引擎实现围棋游戏运行和交互逻辑，并搭建围棋游戏可视化界面。本文不是Pygame的API文档…

Python 2023年9月20日
0053
Spark Structured Streaming实战–对同一流数据进行多种计算

对同一流数据进行多种计算有时我们可能需要针对同一个流的数据源来进行多种计算，比如：使用同一流数据来计算多个指标，并把计算结果保存到不同的地方。此时，就需要对同一个来源的流使用不同…

Python 2023年8月20日
0044
虚拟环境+Gunicorn部署多个Flask程序

虚拟环境创建 [Linux下，virtualenv构建python虚拟环境_Lea的博客-CSDN博客](https://blog.csdn.net/weixin_52213331…

Python 2023年8月15日
0053
【CTF】buuctf web（五）——[HCTF 2018]admin——flask session伪造+Unicode欺骗

[HCTF 2018]admin 知识点 * FLASK Unicode反转字符利用思路解题方法 * 方法一：flask session伪造方法二：unicode欺骗总结思…

Python 2023年8月14日
0042
【AI绘画】如何优雅的在本地配置 novelai ？

大家好，最近 AI 绘画太火了，火到我无论是打开b乎还是b站，都会给我的首页推荐AI绘画相关的。当然我也是收藏和关注了一大波内容，后续会分享出来，各路大佬的新奇玩法。网上有一大堆…

Python 2023年9月28日
0027
MMdetection实现热力图可视化

1.下载两个文件，一会上传（先备份一下自己的环境，防止后续出错） 2.将vis_cam.py文件放到demo这个目录中 3.将det_cam_visualizer.py文件放到mm…

Python 2023年8月2日
0053
你知道matplotlib的pyplot包有哪些函数？

提示：以下matplotlib.pyplot中的函数来自官方库，下面翻译和示例仅供参考。文章目录关于matplotlib的pyplot包的函数集 * 一、pyplot函数集 &…

Python 2023年9月4日
0062
2023牛客寒假算法基础集训营1

题解 | #2023牛客寒假算法基础集训营1#_牛客博客 (nowcoder.net) //本人能力有限，以下只附上本人get到的题，其他参考以上链接或其他 A World Fin…

Python 2023年11月6日
0029
Python数据分析–Numpy常用函数介绍(1)–工具安装及Numpy介绍

Anaconda 是一个跨平台的版本，通过命令行来管理安装包。进行大规模数据处理、预测分析和科学计算。它包括近 200 个工具包，大数据处理需要用到的常见包有 NumPy 、 Sc…

Python 2023年5月24日
0043
Django设置html背景图片失败，出现“GET /images/2.png HTTP/1.1“ 404 2552 解决方法

Django设置html背景图片失败，出现”GET /images/2.png HTTP/1.1″ 404 2552 解决方法问题描述 Django设置h…

Python 2023年8月5日
0085
python中pygame模块编写音乐播放器

今天下午也是闲来没事听音乐，就突发奇想自己写一个音乐播放器，这里就讲一下写这个播放器时所用到的模块及编写过程。播放器用到了os模块，pygame模块还有sys模块。首先当然是先…

Python 2023年9月17日
0050
p6-day01 作业

看图完成如下作业创建workers应用，注册并定义模型类，参考图中的三张表；最后完成迁移，添加三条以上测试数据。使用serializers.Serializer定义三个模型类…

Python 2023年8月4日
0049

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python爬取YouTube视频

大家都在看