Pytorch训练模型时如何释放GPU显存 torch.cuda.empty_cache()内存释放以及cuda的显存机制探索

2023年7月23日上午1:31 • 人工智能 • 阅读 130

前言

训练模型时，一般我们会把模型model，数据data和标签label放到GPU显存中进行加速。

但有的时候GPU Memory会增加，有的时候会保持不变，以及我们要怎么清理掉一些用完的变量呢？

下面让我们一起来探究下原理吧！

一、pytorch训练模型

只要你把任何东西（无论是多小的tensor）放到GPU显存中，那么你至少会栈1000MiB左右的显存（根据cuda版本，会略有不同）。这部分显存是cuda running时固有配件必须要占掉的显存，你先训练过程汇总也是无法释放的。

import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

x = torch.randn((2, 3), device=device)

Pytorch训练模型时如何释放GPU显存 torch.cuda.empty_cache()内存释放以及cuda的显存机制探索

现在我再放入一个比较大的tensor，GPU显存升到了1919MiB

y = torch.randn((200, 300, 200, 20), device=device)

也就是说当你有个新的东西加进去时，GPU显存会不断扩大。

二、batch训练模型时，GPU显存的容量会保持不变?

但是为什么我们像下面这样拿出一个个batch训练模型时，GPU显存的容量会保持不变的呢？

batch_loss = []
for epoch in range(self.epoch):
    pbar = enumerate(tqdm(self.train_dataloader, desc="Training Bar"), 0)
    for i, (inputs, labels) in pbar:
        inputs = inputs.to(self.device)
        labels = labels.to(self.device)

        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        batch_loss.append(loss)
        loss.backward()
        optimizer.step()

这实际上跟cuda的内存管理有关，但你的一块内存不再由引用它的变量时，他就不再是Active memory。他会残留在一个队列中，如果下一次有新的东西进来，那就会把他挤出队列（FIFO），当然如果新进来的东西和你那部分空间的大小差不多，那么出去一块空间，又进来一块空间，那么看上去你的GPU显存就不会有增加，看上去是一直不变。这就解释了一个个batch训练模型时GPU显存不变的原因。

当然如果新加进来的东西很多，就是那些unactivate的memory全部被挤出还是放不下新的东西，那GPU的显存就会增加了。（有点类似C++中的capacity增加的情况）

实际运行中，我们会发现这个队列capacity会有个阈值（这个阈值好像不是固定的），当你还没到达这个阈值时不会触发垃圾回收机制（即清理unactivate memeory的空间）

也就是说我不断运行下面代码

y = torch.randn((200, 300, 200, 20), device=device)

这时再加入y，容量不再增加，会把原来unactivate的memory挤掉。

三、如何释放GPU显存空间

那么我们要怎么样释放掉空间呢

我们上面很多空间原来是被y指向的，后来y指向新的地方，那这些空间都是残留的，我们可以用下面命令继续释放（如果你想释放的话）

torch.cuda.empty_cache()

上述命令可能要运行多次才会释放空间，我运行了大概5次吧

残留内存成功被释放

现在这里面GPU显存 = 基础配置(1001MiB) + y(918MiB) + x(忽略不计)

最后我们再来把y这部分释放掉

令 y = 2，那么原来y所指的那部分显存空间就会变成unactivate，我们可以使用 torch.cuda.empty_cache()把这部分空间释放掉

最终只剩下基础配置的GPU显存占用（这部分已经无法释放了）

四、torch.cuda.memory_summary()查看显存信息

使用 print(torch.cuda.memory_summary())可以看到更多关于cuda显存的信息

; 五、写在最后

经过上面的摸索，我感觉这部分内容跟操作系统的内存管理有点像，所以说计算机的那几门基础课真的很重要，大家都要好好学一学！

当然实际中cuda的显存管理肯定没有那么简单，有兴趣的同学可以继续探究下。

✨原创不易，还希望各位大佬支持一下 \textcolor{blue}{原创不易，还希望各位大佬支持一下}原创不易，还希望各位大佬支持一下

👍 点赞，你的认可是我创作的动力！ \textcolor{green}{点赞，你的认可是我创作的动力！}点赞，你的认可是我创作的动力！

⭐️ 收藏，你的青睐是我努力的方向！ \textcolor{green}{收藏，你的青睐是我努力的方向！}收藏，你的青睐是我努力的方向！

✏️ 评论，你的意见是我进步的财富！ \textcolor{green}{评论，你的意见是我进步的财富！}评论，你的意见是我进步的财富！

Original: https://blog.csdn.net/qq_43827595/article/details/115722953
Author: 白马金羁侠少年
Title: Pytorch训练模型时如何释放GPU显存 torch.cuda.empty_cache()内存释放以及cuda的显存机制探索

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709897/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

财务福音。用Python+OCR人工智能识别发票自动存入Excel表格保姆级教程

前言对于所有公司财务而言，用肉眼看发票，再将信息手动录入excel绝对是人间十大酷刑之一，对于这种流程清晰，机械重复的工作场景，最适合用python自动化办公技术+人工智能技术来…

人工智能 2023年6月19日
0089
贝叶斯，K均值聚类，过拟合与欠拟合，tensorflow序列模型

贝叶斯公式计算题计算题总结 1. 2. =2/3*2/9=4/27 K均值聚类 1.聚类是一种非监督学习，聚类需要将一系列样本输入到聚类算法中，学习样本的内在结构。聚类往往不单独存…

人工智能 2023年5月25日
0073
数据分析案例（4）京东数据分析项目

先上数据集与完整代码：https://pan.baidu.com/s/1lZu3IuJSrLVLXEK74iotKw提取码：bmpe 数据有两个，一个是投放费用的广告费用表有一个是…

人工智能 2023年7月15日
0070
2020-12-15 知识图谱质量评估

7 质量评估无关于知识图谱从哪一种源创建，为初始知识图谱提取的数据通常是不完整的，并且包含重复、矛盾甚至不正确的语句，尤其是从多个源提取时。在最初创建并丰富了来自外部资源的知识图…

人工智能 2023年6月1日
0063
Python的优点和缺点

Python 简单易用，学习成本低，看起来非常优雅干净； Python 标准库和第三库众多，功能强大，既可以开发小工具，也可以开发企业级应用； Python 站在了人工智能和大数据…

人工智能 2023年6月30日
0082
【Inductive Relation Prediction】归纳关系预测相关论文总结

归纳关系预测 inductive relation prediction 只记录20年&am…

人工智能 2023年6月10日
0078
机器学习期末复习题题库-单项选择题

1.属于监督学习的机器学习算法是：贝叶斯分类器 2.属于无监督学习的机器学习算法是：层次聚类二项式分布的共轭分布是： Beta分布多项式分布的共轭分布是： Dirich…

人工智能 2023年5月31日
00259
高德poi获取之矩形搜索法(冲出900条限制)

文章目录 * – + 前言 + 查看API接口 + 基本思想 + 实现过程 + * 构建一次举手函数 * 构建多次举手函数 * 构建保存函数 + 区域切分代码 + 代码…

人工智能 2023年7月30日
0061
完美解释：wenet-流式与非流式语音识别统一模型

Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition[1] ，本…

人工智能 2023年7月28日
0064
Python 计算csv文件中数据一共有多少行

–当数据量过大时，无法用Excel查看全部数据，也不清楚该表格内一共有多少行数据，这时可用Python进行初步统计方法一：open(filename)打开csv文件for循环遍历c…

人工智能 2023年7月15日
00111
安装mongodb-community之后提示command not found: mongo找不到mongo指令

写在前面最近下载mongodb-community之后，试图使用mongo命令行，遇到了一点小问题。因为当前版本较新，用命令行操作mongodb的人也相对较少，互联网上搜索了很久…

人工智能 2023年7月29日
0082
TensorFlow .pb: Save and Display Models

Basicspb stands for protobuf. In TensorFlow, the protbuf file contains the graph definitio…

人工智能 2023年5月24日
0092
pytorch安装问题|在安装pytorch过程中，遇到换源还是不行的解决办法。

作者321yu编辑于2022-05-16 一、写在前面：这是我第二次安装pytorch,我去年安装过一次gpu，但是安装方法1~2就非常顺利换源就能安装好，这次无论如何都报错，折…

人工智能 2023年7月24日
0055
什么是模型的泛化能力

什么是模型的泛化能力？模型的泛化能力是指训练好的机器学习模型在未见过的数据上表现良好的能力。换句话说，模型的泛化能力是指模型对新样本的泛化程度。一个具有良好泛化能力的模型可以在…

人工智能 2024年1月3日
0035
随笔记录：关于SE模块插入位置的总结

一、前言由于之前工作中，训练数据集普遍较小以及开发板对模型的限制，所以对 SE模块的使用较少，对它的插入位置不是很清楚，这样不利于日后对它的使用。故最近查了下使用案例，记录总…

人工智能 2023年6月24日
0086
【预测模型】基于径向基神经网络实现数据回归预测附matlab代码

1 内容介绍利用径向基函数(RBF)神经网络,建立投资预测模型,有效解决经济投资预测中非线性预测问题.以历史数据为例,对所建立投资预测网络模型进行仿真,分析仿真结果.根据生产总…

人工智能 2023年6月18日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pytorch训练模型时如何释放GPU显存 torch.cuda.empty_cache()内存释放以及cuda的显存机制探索

大家都在看