机器学习模型训练之GPU使用

2023年6月16日上午3:00 • 人工智能 • 阅读 137

机器学习模型训练之GPU使用

*
–
+
* 1.电脑自带GPU
* 2.kaggle之免费GPU
* 3.amazon SageMaker Studio Lab

免费GPU使用推荐

深度学习框架由大量神经元组成，它们的计算大多是矩阵运算，这类运算在计算时涉及的数据量较大，但运算形式往往只有加法和乘法，比较简单。我们计算机中的CPU可以支持复杂的逻辑运算，但是CPU的核心数往往较少，运行矩阵运算需要较长的时间，不适合进行深度学习模型的构建。与CPU相反，GPU主要负责图形计算。图形计算同样主要基于矩阵运算，这与我们的深度学习场景不谋而合。根据NVIDIA的统计数据，对于同样的深度学习模型，GPU和CPU的运算速度可以相差数百倍。因此，一个好的GPU平台对深度学习十分重要。

1.电脑自带GPU

示例：Pytorch使用GPU训练，只需修改代码中的几个地方即可。
（1）方法1：通过对网络模型、数据、损失函数这三类变量调用.cuda（）来在GPU上进行训练

import time
import torch
import torchvision
from torch import nn
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

train_data = torchvision.datasets.CIFAR10(root="dataset1",train=True,transform=torchvision.transforms.ToTensor(),
                                         download=True)
test_data = torchvision.datasets.CIFAR10(root="dataset1",train=False,transform=torchvision.transforms.ToTensor(),
                                         download=True)

train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练数据集的长度为：{}".format(train_data_size))
print("测试数据集的长度为：{}".format(test_data_size))

train_dataloader = DataLoader(train_data,batch_size=64)
test_dataloader = DataLoader(test_data,batch_size=64)

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.model = nn.Sequential(
            nn.Conv2d(3,32,5,1,2),
            nn.MaxPool2d(2),
            nn.Conv2d(32,32,5,1,2),
            nn.MaxPool2d(2),
            nn.Conv2d(32,64,5,1,2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(64*4*4,64),
            nn.Linear(64,10)
        )

    def forward(self,x):
        x = self.model(x)
        return x
model = Model()
if torch.cuda.is_available():
    model = model.cuda()

loss_fn = nn.CrossEntropyLoss()
if torch.cuda.is_available():
    loss_fn = loss_fn.cuda()

learning_rate = 1e-2
optimizer = torch.optim.SGD(model.parameters(),lr=learning_rate)

total_train_step = 0

total_test_step = 0

epoch = 10

writer = SummaryWriter("logs_train")
start_time = time.time()
for i in range(epoch):
    print("------第{}轮训练开始------".format(i+1))

    model.train()
    for data in train_dataloader:
        imgs,targets = data
        if torch.cuda.is_available():
            imgs = imgs.cuda()
            targets =targets.cuda()
        outputs = model(imgs)
        loss = loss_fn(outputs,targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_train_step = total_train_step+1
        if total_train_step % 100 ==0:
            end_time = time.time()
            print("训练时长为：{}".format(end_time-start_time))
            print("训练次数：{},Loss:{}".format(total_train_step,loss.item()))
            writer.add_scalar("train_loss",loss.item(),total_train_step)

    model.eval()
    total_test_loss = 0
    total_accuracy = 0

    with torch.no_grad():
        for data in test_dataloader:
            if torch.cuda.is_available():
                imgs,targets = data
                imgs = imgs.cuda()
            targets = targets.cuda()
            outputs = model(imgs)
            loss =loss_fn(outputs,targets)
            total_test_loss = total_test_loss+loss.item()
            accuracy = (outputs.argmax(1) ==targets).sum()
            total_accuracy = total_accuracy+accuracy
    print("整体测试集上的Loss:{}".format(total_test_loss))
    print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))
    writer.add_scalar("test_loss",total_test_loss,total_test_step)
    writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)

    total_test_step = total_test_step+1

    torch.save(model,"model{}.pth".format(i))
    print("模型已保存")
writer.close()

（2）方法2：指定训练设备.to(device)

import time
import torch
import torchvision
from torch import nn
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

device = torch.device("cpu")

train_data = torchvision.datasets.CIFAR10(root="dataset1",train=True,transform=torchvision.transforms.ToTensor(),
                                         download=True)
test_data = torchvision.datasets.CIFAR10(root="dataset1",train=False,transform=torchvision.transforms.ToTensor(),
                                         download=True)

train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练数据集的长度为：{}".format(train_data_size))
print("测试数据集的长度为：{}".format(test_data_size))

train_dataloader = DataLoader(train_data,batch_size=64)
test_dataloader = DataLoader(test_data,batch_size=64)

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.model = nn.Sequential(
            nn.Conv2d(3,32,5,1,2),
            nn.MaxPool2d(2),
            nn.Conv2d(32,32,5,1,2),
            nn.MaxPool2d(2),
            nn.Conv2d(32,64,5,1,2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(64*4*4,64),
            nn.Linear(64,10)
        )

    def forward(self,x):
        x = self.model(x)
        return x
model = Model()
model = model.to(device)

loss_fn = nn.CrossEntropyLoss()
loss_fn = loss_fn.to(device)

learning_rate = 1e-2
optimizer = torch.optim.SGD(model.parameters(),lr=learning_rate)

total_train_step = 0

total_test_step = 0

epoch = 10

writer = SummaryWriter("logs_train")
start_time = time.time()
for i in range(epoch):
    print("------第{}轮训练开始------".format(i+1))

    model.train()
    for data in train_dataloader:
        imgs,targets = data
        imgs = imgs.to(device)
        targets =targets.to(device)
        outputs = model(imgs)
        loss = loss_fn(outputs,targets)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_train_step = total_train_step+1
        if total_train_step % 100 ==0:
            end_time = time.time()
            print("训练时长为：{}".format(end_time-start_time))
            print("训练次数：{},Loss:{}".format(total_train_step,loss.item()))
            writer.add_scalar("train_loss",loss.item(),total_train_step)

    model.eval()
    total_test_loss = 0
    total_accuracy = 0

    with torch.no_grad():
        for data in test_dataloader:
            imgs = imgs.to(device)
            targets = targets.to(device)
            targets = targets.cuda()
            outputs = model(imgs)
            loss =loss_fn(outputs,targets)
            total_test_loss = total_test_loss+loss.item()
            accuracy = (outputs.argmax(1) ==targets).sum()
            total_accuracy = total_accuracy+accuracy
    print("整体测试集上的Loss:{}".format(total_test_loss))
    print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))
    writer.add_scalar("test_loss",total_test_loss,total_test_step)
    writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)

    total_test_step = total_test_step+1

    torch.save(model,"model{}.path".format(i))
    print("模型已保存")
writer.close()

2.kaggle之免费GPU

链接：https://www.kaggle.com/#
（1）注册账号

此处验证时，可能会出现地区不支持。可使用VPN代理，可在Microsoft Edge浏览器中安装Hoxx VPN Proxy插件，打开代理即可使用

（2）登录，create new Notebook

每周约30h免费使用时间

此处通过手机号验证后，可选择使用GPU、TPU
机器学习模型训练之GPU使用

; 3.amazon SageMaker Studio Lab

链接：https://studiolab.sagemaker.aws/
不需要aws账号，即可使用免费的GPU资源。Studio Lab 为用户提供了所有入门 AI 所需的基础能力，包括 JupyterLab IDE、CPU 和 GPU 模型训练算力以及 15 GB 的永久存储。
（1）进入主页，Request account

（2）完善信息，提交请求，后续收到邮件后验证通过则提交成功【此处验证时，可能会出现地区不支持。可使用VPN代理，可在Microsoft Edge浏览器中安装Hoxx VPN Proxy插件，打开代理即可使用】；
注：该请求是批量处理，可能需要等待1~5天不等，收到注册链接后，注册账号即可。

（3）注册成功后，登录后即可来到使用界面。

有GPU和CPU两种资源
GPU每次使用限制为4h，4h使用完后，runtime使用环境会停止，点击stop runtime 会重新开启4h；（CPU为12h）
点击open project即可进行jupyter notebook环境中学习
可拓展学习沐神的《动手学习深度学习》

Original: https://blog.csdn.net/qq_42244418/article/details/124628177
Author: chong墩儿
Title: 机器学习模型训练之GPU使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619267/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenDelta工具包

Delta tuning的工具包如果后续有此部分工作可以看 Original: https://www.cnblogs.com/nlpers/p/16698968.htmlAut…

人工智能 2023年6月4日
0077
行业洞察 | 未来人形机器可能是最懂你的人

近期，小米展示了全尺寸人形仿生机器人CyberOne。据悉，CyberOne身高177CM、体重52KG，艺名”铁大”，能够感知人类情绪、视觉敏锐、可实现双…

人工智能 2023年6月5日
0075
【PyTorch教程】P27、28、29 完整的模型套路

P27、28、29 完整的模型套路一步一步跟着做笔记：查看数据集的长度：把写好的这部分，单独放在一个模块里，起名叫做model：这个模块，稍加改动，比如添加import，再…

人工智能 2023年6月22日
0076
古诗词相关词库

相关词库 1、人名语料库：https://github.com/wainshine/Chinese-Names-Corpuswainshine/Chinese-Names-Corp…

人工智能 2023年6月1日
0075
Python图像处理案例汇总

1.https://github.com/eastmountyxz/ImageProcessing-Pythonhttps://blog.csdn.net/eastmount/ca…

人工智能 2023年6月21日
0083
tensorflow GPU安装

想安装，直接看后面的 TF 安装需要装的软件 CUDA驱动，cuDNN，TF CUDA驱动，cuDNN，TF 关系介绍 https://blog.csdn.net/xs11222…

人工智能 2023年5月25日
0069
位置编码（PE）是如何在Transformers中发挥作用的

在人类的语言中，单词的顺序和它们在句子中的位置是非常重要的。如果单词被重新排序后整个句子的意思就会改变，甚至可能变得毫无意义。 Transformers不像LSTM具有处理序列排序…

人工智能 2023年7月14日
0067
基于halcon—缺陷检测常用方法与示例总结

摘要缺陷检测是视觉需求中难度最大一类需求，主要是其稳定性和精度的保证。首先常见缺陷：凹凸、污点瑕疵、划痕、裂缝、探伤等。缺陷检测算法不同于尺寸、二维码、OCR等算法。后者应用场…

人工智能 2023年6月16日
0089
Pandas之DataFrame—行与列的查询与匹配

如果这里阅读体验不佳，我另外上传一份HTML在私人播客；以及jupyter notebook文件供大家练习 Python: 3.8.8Pandas: 1.2.4NumPy: 1.2…

人工智能 2023年7月7日
0060
激光点云分割系列-SqueezeSeg系列

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月31日
0079
猿创征文｜程序猿乘风破浪 Python Pygame 原创小游戏【源码+解析】

第一次参加猿创征文活动，肯定要来一波大的！Σ(⊙▽⊙”a！！！在夏天结束不久之际，让我们再来一波冲浪，感受夏日阳光下程序员的刻苦钻研精神，和无处可放基情。最近学习…

人工智能 2023年7月3日
0056
opencv C++ SVM模型训练与分类实现

最近想学习一下分类算法的内容，恰好opencv有SVM的函数，故先从这个下手。找了许多资料，发现要么是opencv2、3的，要么就没有具体实现代码，学习还是把代码与原理一起结合来看…

人工智能 2023年6月30日
00114
5分钟极简配置OpenCV contrib C++ vs2017/19，不用自己编译

已编译好opencv 和OpenCV-contrib，下载即用，不用再次编译，OpenCV-contrib所有功能函数都可以用。OpenCV_contrib 我这里使用的是vs20…

人工智能 2023年7月19日
0074
数据科学你得知道的几种分布（下）[泊松分布，卡方分布，Beta分布]

一、泊松分布泊松分布是一种在随机时间空间中的概率分布经典的应用场景有”一本书一页中的印刷错误””某地区在一天内邮递遗失的信件数”…

人工智能 2023年7月17日
0094
论文投稿之投稿信（Cover Letter）写法–附真实案例

1 Cover Letter 是什么？ Cover Letter, 即投稿信，是论文投递时与论文一起发送给编辑的信件，其目的是让编辑在阅读你的论文之前，简单了解你文章的基本情况。 …

人工智能 2023年7月27日
0094
PyTorch中的优化器有哪些？何时应该使用哪个优化器

问题：PyTorch中的优化器有哪些？何时应该使用哪个优化器？优化器是深度学习中非常重要的组件，它用于调整模型的参数以最小化损失函数。PyTorch提供了多种优化器，包括随机梯度…

人工智能 2024年1月2日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习模型训练之GPU使用

机器学习模型训练之GPU使用

1.电脑自带GPU

2.kaggle之免费GPU

; 3.amazon SageMaker Studio Lab

大家都在看