在GPU上训练PyTorch代码

2023年5月23日下午6:11 • 人工智能 • 阅读 67

文章目录

PyTorch操作
tensor在不同设备上的操作
网络的不同设备上

PyTorch操作

Py Torch允许我们在程序内部进行计算时，无缝地将数据移动到GPU。当我们使用GPU时，我们可以使用.cuda()方法，当我们使用CPU时，我们可以使用.CPU()方法。
我们也可以使用.to()方法,如果要进入GPU，我们要写入to.(‘cuda’)，要进入CPU，我们要写入to.(‘CPU’).我们将看到一个使用前两个的示例，然后我们将默认始终使用to（）变量。

要在培训过程中使用GPU，有两个基本要求。

数据必须在GPU
网络必须在GPU。
默认情况下，当创建PyTorch张量或Py Torch神经网络模块时，相应的数据在CPU上初始化。具体来说，数据存在于CPU的内存中。
现在，让我们创建一个张量和一个网络，看看我们如何从CPU转移到GPU。

t = torch.ones(1,1,28,28)
network = Network()

现在，我们调用cuda（）方法，

t = t.cuda()
network = network.cuda()

查看是否在GPU上：

gpu_pred = network(t)
gpu_pred.device

同样，也可以将在GPU上的数据重新放到CPU上面

t = t.cpu()
network = network.cpu()
cpu_pred = network(t)
cpu_pred.device

tensor在不同设备上的操作

GPU和CPU是基于数据进行计算的计算设备，因此在计算中直接相互使用的任何两个值都必须存在于同一设备上。
以下代码验证如果操作不在同一设备上，则会发生错误。

[En]

The following code verifies that an error will occur if the operation is not on the same device.

t1 = torch.tensor([
    [1,2],
    [3,4]
])

t2 = torch.tensor([
    [5,6],
    [7,8]
])
t1.device, t2.device

t1 = t1.to('cuda')
t1.device

try:
    t1 + t2
except Exception as e:
    print(e)

try:
    t2 + t1
except Exception as e:
    print(e)

从上面的代码可以看到，运算符前后的数据在不同的设备上，错误信息也不同。二进制加运算期望第二个参数与第一个参数具有相同的器件。了解此错误的含义有助于调试这些类型的设备不匹配。

[En]

As you can see from the above code, the data before and after the operator is on different devices, and the error information is also different. The binary plus operation expects the second parameter to have the same device as the first parameter. Understanding the meaning of this error is helpful to debug these types of device mismatches.

将两个tensor都放在同一个设备上：

t2 = t2.to('cuda')
t1 + t2

网络的不同设备上

在上面的实例中
网络也可以放到GPU上，具体的实质是什么呢？

network = network.cuda()

通过上一篇文章中使用的网络

[En]

Through the network used in the previous article

network = Network()
for name, param in network.named_parameters():
    print(name, '\t\t', param.shape)

for n, p in network.named_parameters():
    print(p.device, '', n)

在这里，我们创建了一个PyTorch网络，并迭代了该网络的参数。正如我们所见，网络的参数是网络内部的权重和偏差。换句话说，这些只是我们已经看到的存在于设备上的张量。让我们通过检查每个参数的设备来验证这一点。所有的权重和偏差张量都在CPU上。
这向我们表明，默认情况下，网络中的所有参数都在CPU上初始化。
这也就解释了网络也可以放到GPU上的实质：网络等模块实例实际上没有设备，不是存在于设备上的网络，而是存在于设备上的网络中的张量。（网络在某个设备上也就是说是网络上的参数张量存在某个设备上）

network.to('cuda')
for n, p in network.named_parameters():
    print(p.device, '', n)

总结：一般使用to()方法进行设备的转换，用该方法可以编写设备无关的代码，将设备device作为参数传递，增加代码的效率。

Original: https://blog.csdn.net/weixin_43328816/article/details/124169917
Author: love the future
Title: 在GPU上训练PyTorch代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497127/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python的pandas的stack和unstack函数的使用及区别

版权声明：转载请注明作者（独孤尚良dugushangliang）出处：https://blog.csdn.net/dugushangliang/article/details/11…

人工智能 2023年7月8日
0093
前端AST详解，手写babel插件

🐱个人主页：不叫猫先生🙋‍♂️作者简介：专注于前端领域各种技术，热衷分享，关注我会给你带来一些不一样的认知和成长。📝个人签名：不破不立 🍬本文目录 🥙一、前言 🥪二、节点介绍 🌮…

人工智能 2023年7月31日
00147
Windows10 配置编译OpenCV + NCNN部署环境（一）

算法部署系列文章目录文章目录算法部署系列文章目录前言一、编译OpenCV4.x版本带opencv_contrib4.x * 1.安装cmake 2.安装protobuf(以…

人工智能 2023年7月20日
0059
Ubuntu安装运行YOLOV3 解决opencv报错 No package ‘opencv‘ found

YOLO系列本文概述 * 一些软件依赖官方网站和官方英文教程下载YOLOV3并直接make编译编译GPU实现YOLO * 要求N卡和cuda 编译GPU版YOLOV3 gp…

人工智能 2023年7月13日
0054
mmsegmentation自定义数据集的准备，配置文件编写以及训练，测试

一、前提确认已经安装好了mmsegmentation的环境。具体安装方法，请看官方的get_started.md。二、数据准备首先是结合官方的customize_datase…

人工智能 2023年7月23日
10179
目标检测：RetinaNet算法细节以及代码部分

一、背景目标检测算法一般分为单阶段算法和多阶段算法。多阶段算法特点是：精度高，但速度慢。（Faster-RCNN）单阶段算法特点是：速度快，但精度不如前者。(SSD,Retina…

人工智能 2023年7月12日
0092
基于Python实现五大常用分类算法(原理+代码)

读：在机器学习和统计中，分类算法通过对已知类别训练集的计算和分析，从中发现类别规则并预测新数据的类别。分类被认为是监督学习的一个实例，即学习可以获得正确识别的观察的训练集的情况。…

人工智能 2023年7月26日
0079
Linux【命令篇】—— Linux操作系统常用指令大全

一、关机与重启指令（1） shutdown – 关机（2） halt – 关机（3） reboot– 重启（4） sync &#8211…

人工智能 2023年5月30日
0068
Pytorch模型转onnx以及onnx模型推理

1.Pytorch保存加载模型 1.1 当提到保存和加载模型时，有三个核心功能需要熟悉： 1.torch.save：将序列化的对象保存到disk。这个函数使用Python的pick…

人工智能 2023年7月9日
00105
【计算机视觉】数字图像处理（五）—— 图像的退化与复原

数字图像处理（五）—— 图像的退化与复原 * – 一、图像退化 – + 图像退化的定义： – 二、图像复原 – + （一）、图像复原…

人工智能 2023年6月17日
0069
java计算机毕业设计电子配件公司仓库管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
00110
[CG从零开始] 3. 安装 pyassimp 库加载模型文件

assimp 是一个开源的模型加载库，支持非常多的格式，还有许多语言的 binding，这里我们选用 assimp 的 python 的 binding 来加载模型文件。不过社区主…

人工智能 2023年6月4日
0078
人工智能写代码！ChatGPT VScode 插件真正打败AI人工智能的只能是AI人工智能自己。

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0065
机器学习——LDA（线性判别分析）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年7月27日
0060
CVPR2019领域自适应/语义分割：Adapting Structural Information across Domains for Boosting Sema适应结构信息跨领域促进语义分割

CVPR2019 All about Structure: Adapting Structural Information across Domains for Boosting …

人工智能 2023年6月22日
0090
优秀笔记软件盘点—好看、强大的可视化笔记软件、知识图谱工具

只推荐优质应用，推荐真正的思维工具。Heptabase、氢图、Walling、Reflect、InfraNodus、TiddlyWiki、FlowUs Heptabase 介绍一…

人工智能 2023年6月1日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在GPU上训练PyTorch代码

文章目录

大家都在看