RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0； 4.00 GiB total capacity； 2.44

2023年7月20日下午4:35 • 人工智能 • 阅读 60

调试手写数字识别代码时出现的问题，将cpu的代码改用gpu训练时虽然可以训练，详见上一条博客(Mnist手写数字识别cpu训练与gpu训练)，但是会出现Error。查找资料后以下是解决过程。

先说结论： 这个问题的出现就是显存不足导致的，物理上让显存扩大是最有效的解决方法。要是没有条件，就试试下面的方法，希望能够帮到你。🧐

一、调整前代码&调整后代码

1、前

import torch
from torchvision import datasets, transforms
import torch.nn as nn
import torch.optim as optim
from datetime import datetime

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

class Config:
    batch_size = 64
    epoch = 10
    momentum = 0.9
    alpha = 1e-3

    print_per_step = 100

class LeNet(nn.Module):

    def __init__(self):
        super(LeNet, self).__init__()

        self.conv1 = nn.Sequential(
            nn.Conv2d(1, 32, 3, 1, 2),
            nn.ReLU(),
            nn.MaxPool2d(2, 2)
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(32, 64, 5),
            nn.ReLU(),
            nn.MaxPool2d(2, 2)
        )

        self.fc1 = nn.Sequential(
            nn.Linear(64 * 5 * 5, 128),
            nn.BatchNorm1d(128),
            nn.ReLU()
        )

        self.fc2 = nn.Sequential(
            nn.Linear(128, 64),
            nn.BatchNorm1d(64),
            nn.ReLU()
        )

        self.fc3 = nn.Linear(64, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = x.view(x.size()[0], -1)
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        return x

class TrainProcess:

    def __init__(self):
        self.train, self.test = self.load_data()

        self.net = LeNet().to(device)

        self.criterion = nn.CrossEntropyLoss()
        self.optimizer = optim.SGD(self.net.parameters(), lr=Config.alpha, momentum=Config.momentum)

    @staticmethod
    def load_data():
        print("Loading Data......")
        """加载MNIST数据集，本地数据不存在会自动下载"""
        train_data = datasets.MNIST(root='./data/',
                                    train=True,
                                    transform=transforms.ToTensor(),
                                    download=True)

        test_data = datasets.MNIST(root='./data/',
                                   train=False,
                                   transform=transforms.ToTensor())

        train_loader = torch.utils.data.DataLoader(dataset=train_data,
                                                   batch_size=Config.batch_size,
                                                   shuffle=True)

        test_loader = torch.utils.data.DataLoader(dataset=test_data,
                                                  batch_size=Config.batch_size,
                                                  shuffle=False)
        return train_loader, test_loader

    def train_step(self):
        steps = 0
        start_time = datetime.now()

        print("Training & Evaluating......")
        for epoch in range(Config.epoch):
            print("Epoch {:3}".format(epoch + 1))

            for data, label in self.train:
                data, label = data.to(device),label.to(device)
                self.optimizer.zero_grad()
                outputs = self.net(data)
                loss = self.criterion(outputs, label)
                loss.backward()
                self.optimizer.step()

                if steps % Config.print_per_step == 0:
                    _, predicted = torch.max(outputs, 1)
                    correct = int(sum(predicted == label))
                    accuracy = correct / Config.batch_size
                    end_time = datetime.now()
                    time_diff = (end_time - start_time).seconds
                    time_usage = '{:3}m{:3}s'.format(int(time_diff / 60), time_diff % 60)
                    msg = "Step {:5}, Loss:{:6.2f}, Accuracy:{:8.2%}, Time usage:{:9}."
                    print(msg.format(steps, loss, accuracy, time_usage))

                steps += 1

        test_loss = 0.

        test_correct = 0
        for data, label in self.test:
            data, label = data.to(device),label.to(device)
            outputs = self.net(data)
            loss = self.criterion(outputs, label)
            test_loss += loss * Config.batch_size
            _, predicted = torch.max(outputs, 1)
            correct = int(sum(predicted == label))
            test_correct += correct

        accuracy = test_correct / len(self.test.dataset)
        loss = test_loss / len(self.test.dataset)
        print("Test Loss: {:5.2f}, Accuracy: {:6.2%}".format(loss, accuracy))

        end_time = datetime.now()
        time_diff = (end_time - start_time).seconds
        print("Time Usage: {:5.2f} mins.".format(time_diff / 60.))

if __name__ == "__main__":
    p = TrainProcess()
    p.train_step()

报错： RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.44 GiB already allocated; 0 bytes free; 2.45 GiB reserved in total by PyTorch)

2、后

import torch
from torchvision import datasets, transforms
import torch.nn as nn
import torch.optim as optim
from torch.autograd import Variable
from datetime import datetime

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

class Config:
    batch_size = 64
    epoch = 10
    momentum = 0.9
    alpha = 1e-3

    print_per_step = 100

class LeNet(nn.Module):

    def __init__(self):
        super(LeNet, self).__init__()

        self.conv1 = nn.Sequential(
            nn.Conv2d(1, 32, 3, 1, 2),
            nn.ReLU(),
            nn.MaxPool2d(2, 2)
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(32, 64, 5),
            nn.ReLU(),
            nn.MaxPool2d(2, 2)
        )

        self.fc1 = nn.Sequential(
            nn.Linear(64 * 5 * 5, 128),
            nn.BatchNorm1d(128),
            nn.ReLU()
        )

        self.fc2 = nn.Sequential(
            nn.Linear(128, 64),
            nn.BatchNorm1d(64),
            nn.ReLU()
        )

        self.fc3 = nn.Linear(64, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = x.view(x.size()[0], -1)
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        return x

class TrainProcess:

    def __init__(self):
        self.train, self.test = self.load_data()
        self.net = LeNet().to(device)
        self.criterion = nn.CrossEntropyLoss()
        self.optimizer = optim.SGD(self.net.parameters(), lr=Config.alpha, momentum=Config.momentum)

    @staticmethod
    def load_data():
        print("Loading Data......")
        """加载MNIST数据集，本地数据不存在会自动下载"""
        train_data = datasets.MNIST(root='./data/',
                                    train=True,
                                    transform=transforms.ToTensor(),
                                    download=True)

        test_data = datasets.MNIST(root='./data/',
                                   train=False,
                                   transform=transforms.ToTensor())

        train_loader = torch.utils.data.DataLoader(dataset=train_data,
                                                   batch_size=Config.batch_size,
                                                   shuffle=True)

        test_loader = torch.utils.data.DataLoader(dataset=test_data,
                                                  batch_size=Config.batch_size,
                                                  shuffle=False)
        return train_loader, test_loader

    def train_step(self):
        steps = 0
        start_time = datetime.now()

        print("Training & Evaluating......")
        for epoch in range(Config.epoch):
            print("Epoch {:3}".format(epoch + 1))

            for data, label in self.train:
                data, label = data.to(device),label.to(device)
                self.optimizer.zero_grad()
                outputs = self.net(data)
                loss = self.criterion(outputs, label)
                loss.backward()
                self.optimizer.step()

                if steps % Config.print_per_step == 0:
                    _, predicted = torch.max(outputs, 1)
                    correct = int(sum(predicted == label))
                    accuracy = correct / Config.batch_size
                    end_time = datetime.now()
                    time_diff = (end_time - start_time).seconds
                    time_usage = '{:3}m{:3}s'.format(int(time_diff / 60), time_diff % 60)
                    msg = "Step {:5}, Loss:{:6.2f}, Accuracy:{:8.2%}, Time usage:{:9}."
                    print(msg.format(steps, loss, accuracy, time_usage))

                steps += 1

        test_loss = 0.

        test_correct = 0
        for data, label in self.test:
            with torch.no_grad():
                data, label = data.to(device),label.to(device)
                outputs = self.net(data)
                loss = self.criterion(outputs, label)
                test_loss += loss * Config.batch_size
                _, predicted = torch.max(outputs, 1)
                correct = int(sum(predicted == label))
                test_correct += correct

        accuracy = test_correct / len(self.test.dataset)
        loss = test_loss / len(self.test.dataset)
        print("Test Loss: {:5.2f}, Accuracy: {:6.2%}".format(loss, accuracy))

        end_time = datetime.now()
        time_diff = (end_time - start_time).seconds
        print("Time Usage: {:5.2f} mins.".format(time_diff / 60.))

if __name__ == "__main__":
    print(device)
    p = TrainProcess()
    p.train_step()

运行结果：

做了修改后便不会报该错误了。

二、解决方法

方法一：调整batch_size大小

网上的解决方法大多让调整batch_size大小，但是我在调整后，并没有解决问题。

方法二：不计算梯度

使用 with torch.no_grad():
给出一篇博主写的博客：pytorch运行错误：CUDA out of memory.
注：本文使用的就是方法二解决了问题。

方法三：释放内存

在报错代码前加上以下代码，释放无关内存：

if hasattr(torch.cuda, 'empty_cache'):
    torch.cuda.empty_cache()

参考博客：解决：RuntimeError: CUDA out of memory. Tried to allocate 2.00 MiB

Original: https://blog.csdn.net/qq_40846862/article/details/123961601
Author: 华墨1024
Title: RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0； 4.00 GiB total capacity； 2.44

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/705317/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从1G到5G，移动通讯在路上

自从20 世纪80 年代初引入1G 以来，大约每10 年就会发布一种新的无线移动通信技术。所有这些都是指移动运营商和设备本身使用的技术。它们具有不同的速度和功能，可以改进上一代产品…

人工智能 2023年5月27日
0075
PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud【翻译】

Abstract 本文提出 PointRCNN用于从原始点云进行 3D 对象检测。两个阶段 stage-1 用于自下而上的 3D proposal生成我们的 stage-1 子…

人工智能 2023年7月12日
0068
关于图像处理

第一章图像处理文章目录第一章图像处理前言一、图像分割的方法二、DenseCRF * 1. workflow 2. 核心思想 3. coding 总结前言之前将所有…

人工智能 2023年6月22日
0061
Auto MPG 汽车油耗预测（tensorflow深度学习龙书笔记）

利用全连接网络模型来完成汽车的效能指标 MPG(Mile Per Gallon，每加仑燃油英里数)的预测问题实战数据集我们采用 Auto MPG 数据集，它记录了各种汽车效能指…

人工智能 2023年5月25日
00102
PyQT5播放音频

最近自己写的一个软件需要在持续监测T-box的信号强度值时，领导提出在信号低于阈值时给出警报或指示，之前的想法是在软件界面上加一个指示灯，但这样还是需要Tester去盯着屏幕，这样…

人工智能 2023年5月27日
00108
人脸表情识别解干扰论文解读2：D3Net：Dual-Branch Disturbance Disentangling Networkfor Facial Exp

D3Net：厦门大学发表于ACM MM 2021 原论文链接：有道云笔记本文的第一作者是信息学院计算机科学与技术系2019级硕士生莫榕云，通讯作者是信息学院计算机科学与技术系严…

人工智能 2023年6月20日
00105
一种基于 OpenPose 的跌倒检测系统

1. 项目背景简介人们在行走和奔跑等情况下，经常会发生摔倒的情况。对于正常人而言，在摔倒不是特别严重的情况下，人们可以立刻起来或者打电话报警或者通知家人，然而对于一些特殊的人群…

人工智能 2023年7月29日
00123
nnUNet使用教程

大佬GitHub：https://github.com/MIC-DKFZ/nnUNet上面写得也很清楚，英文看着嫌麻烦，然后找的很棒的使用教程，最开始的入门教程看的是另一位大佬的 …

人工智能 2023年6月16日
0081
A-LOAM运行和常见问题及解决方法

目录一、安装依赖 1、安装 Ceres Solver 1.1安装依赖 1.2下载Ceres包 1.3安装Ceres 2安装PCL库二、编译A-LOAM算法 1、构建ROS工作空…

人工智能 2023年6月1日
0072
YOLOV5部署全系列教程（1）

YOLOV5部署全系列教程（1）为防止以后方便查看与学习，特此记录自己部署全系列中遇到的一些问题和部署步骤。本文建立在U版yolov5已经运行基于自己的数据集导出了pt模型文件，…

人工智能 2023年7月23日
0086
Opencv-Python学习（二）———图像处理

目录一、阈值处理二、图像的平滑处理三、腐蚀与膨胀一、阈值处理 import cv2 as cv import numpy as np from matplotlib imp…

人工智能 2023年7月20日
0057
快速上手opencv_contrib安装（Windows11）

目录一、安装资料准备二、安装编译 * 1. cmake安装 2. opencv4.2.0源代码编译和opencv4.2.0_contirb解压 3. opencv编译 4. …

人工智能 2023年5月28日
0085
UNet语义分割实战：使用UNet实现对人物的抠图

摘要在上一篇文章，我总结了一些UNet的基础知识，对UNet不了解的可以看看，文章链接：https://wanghao.blog.csdn.net/article/details…

人工智能 2023年7月27日
00102
Android 12.0 Launcher3 去掉Hotseat功能

目录 1.概述 2.Launcher3 去掉Hotseat的核心类 3.Launcher3 去掉Hotseat的核心功能实现和分析 3 Original: https://blog…

人工智能 2023年6月26日
0094
墨迹天气语音包_小米有品“智能AI翻译机”评测，还内置了语音助手，随身WiFi功能…

出国旅游时，我们需要面对的最大问题应该就是言语沟通了，毕竟想要掌握一门新的语言不是什么容易的事情。近期，小米科技旗下的小米有品平台上线了一款新品：Langogo智能AI翻译机，对于…

人工智能 2023年5月27日
0078
[AI画图本地免安装部署]Windows 10 Nvidia平台部署AUTOMATIC1111 版本 stable diffusion 免安装版

文章目录 [AI画图本地免安装部署]Windows 10 Nvidia平台部署AUTOMATIC1111 版本 stable diffusion 免安装版 * 1. 网络准备 1….

人工智能 2023年6月23日
00138

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0； 4.00 GiB total capacity； 2.44

1、前

2、后

方法一：调整batch_size大小

方法二：不计算梯度

方法三：释放内存

大家都在看