【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

2023年7月21日上午6:45 • 人工智能 • 阅读 59

之前用过一些很厉害的模型，图像分类领域的VGG16，目标检测领域的YoloV5，实例分割领域的Yolact等。但只是会配置好环境之后训练，最多稍微修改下源码的接口满足自己的需求。还从来没有用PyTorch从头搭建并训练一个模型出来。

正好最近在较为系统地学PyTorch，就总结一下如何从头搭建并训练一个神经网络模型。

使用torchvision加载数据集并做预处理

我们使用的数据集是CIFAR10，该数据集有10个类别，图像尺寸为3 x 32 x 32，如下所示：

代码如下，重要地方代码中有注释

import torch
import cv2
import numpy as np
from torchvision import datasets, transforms
import torchvision

transform = transforms.Compose([transforms.ToTensor(),
                                transforms.Normalize((0.5,0.5,0.5), (0.5,0.5,0.5)),
                              ])

trainset = torchvision.datasets.CIFAR10(root='E:\\Machine Learning\\PyTorch\\CIFAR10', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2)
testset = torchvision.datasets.CIFAR10(root='E:\\Machine Learning\\PyTorch\\CIFAR10', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)

定义（搭建）自己的神经网络

代码及注释如下，整个结构很简单，就是两个卷积层，两个最大池化层，最后连接三个全连接层。


import torch.nn as nn
import torch.nn.functional as F

class MyModel(nn.Module):

    def __init__(self):
        super(MyModel, self).__init__()
        self.conv1 = nn.Conv2d(3,6,5)
        self.pool = nn.MaxPool2d(2,2)
        self.conv2 = nn.Conv2d(6,16,5)
        self.fc1 = nn.Linear(16*5*5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16*5*5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)

        return x

Net = MyModel()

这里解释一下为什么第一个全连接层的输入大小为16x5x5，16是因为最后的卷积层有16个filter（即输出的feature map有16个channel），后面的5×5并不是因为最后卷积层的kernel大小为5×5，而是因为最后的feature map大小为5×5，至于为什么是5×5可以按照下面的图算一下：

定义损失函数（Loss Function）和优化器（Optimizer）

神经网络的反向传播需要损失函数，因为是多分类问题，所以我们用交叉熵损失函数：


import torch.optim as optim

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(Net.parameters(), lr=0.001, momentum=0.9)

训练神经网络

接着开始训练我们的模型，共训练2个epoch，batch_size=4，先用CPU训练，看看时间如何。


epochs = 2
e1 = cv2.getTickCount()
for epoch in range(epochs):
    total_loss = 0.0
    for i, data in enumerate(trainloader, 0):

        inputs, labels = data
        optimizer.zero_grad()

        outputs = Net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
        if (i+1) % 1000 == 0:
            print('第{}个epoch：第{:5d}次：目前的训练损失loss为：{:.3f}'.format(epoch+1, i+1, total_loss/1000))
            total_loss = 0.0

e2 = cv2.getTickCount()
print('用CPU训练总共用时：{} s'.format((e2-e1)/cv2.getTickFrequency()))


第1个epoch：第 1000次：目前的训练损失loss为：2.294
第1个epoch：第 2000次：目前的训练损失loss为：2.087
第1个epoch：第 3000次：目前的训练损失loss为：1.902
第1个epoch：第 4000次：目前的训练损失loss为：1.799
第1个epoch：第 5000次：目前的训练损失loss为：1.709
第1个epoch：第 6000次：目前的训练损失loss为：1.660
第1个epoch：第 7000次：目前的训练损失loss为：1.623
第1个epoch：第 8000次：目前的训练损失loss为：1.586
第1个epoch：第 9000次：目前的训练损失loss为：1.550
第1个epoch：第10000次：目前的训练损失loss为：1.497
第1个epoch：第11000次：目前的训练损失loss为：1.468
第1个epoch：第12000次：目前的训练损失loss为：1.469
第2个epoch：第 1000次：目前的训练损失loss为：1.392
第2个epoch：第 2000次：目前的训练损失loss为：1.382
第2个epoch：第 3000次：目前的训练损失loss为：1.364
第2个epoch：第 4000次：目前的训练损失loss为：1.361
第2个epoch：第 5000次：目前的训练损失loss为：1.344
第2个epoch：第 6000次：目前的训练损失loss为：1.349
第2个epoch：第 7000次：目前的训练损失loss为：1.313
第2个epoch：第 8000次：目前的训练损失loss为：1.327
第2个epoch：第 9000次：目前的训练损失loss为：1.306
第2个epoch：第10000次：目前的训练损失loss为：1.302
第2个epoch：第11000次：目前的训练损失loss为：1.275
第2个epoch：第12000次：目前的训练损失loss为：1.288
用CPU训练总共用时：83.7945317 s

用时83.79秒。

测试模型结果


correct = 0
total = 0

e1 = cv2.getTickCount()
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = Net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

e2 = cv2.getTickCount()
print('用CPU测试总共用时：{} s'.format((e2-e1)/cv2.getTickFrequency()))
print('在测试集上的准确率为：{:.3f}%'.format(correct*100/total))

我们来看看结果如何


用CPU测试总共用时：5.3146039 s
在测试集上的准确率为：55.460%

准确率大概55%，虽然不高，但可以看出我们的模型确实学到了东西（因为10分类问题随机预测的话准确率在10%左右）。并且这个博客的目的在于梳理训练神经网络的大致流程，而非构建一个优秀的模型。

嫌CPU太慢？换GPU训练并推测试试！

首先看看是否安装了对应版本的cuda和cudnn，具体安装步骤就不说了，csdn上很多优秀教程。


device = torch.device('cuda:0' if torch.cuda.is_available else 'cpu')
print('设备名称： ', device)
print('查看cuda版本： ', torch.version.cuda)


设备名称：  cuda:0
查看cuda版本：  10.1

PyTorch使用GPU训练非常方便，相较于第4步用CPU训练，只需增加两行代码：
（1）把神经网络模型加载到cuda
（2）把数据加载到cuda

代码及注释如下：


Net.to(device)
epochs = 2
e1 = cv2.getTickCount()
for epoch in range(epochs):
    total_loss = 0.0
    for i, data in enumerate(trainloader, 0):

        inputs, labels = data

        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()

        outputs = Net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
        if (i+1) % 1000 == 0:
            print('第{}个epoch：第{:5d}次：目前的训练损失loss为：{:.3f}'.format(epoch+1, i+1, total_loss/1000))
            total_loss = 0.0

e2 = cv2.getTickCount()
print('用CPU训练总共用时：{} s'.format((e2-e1)/cv2.getTickFrequency()))

看看结果如何：


第1个epoch：第 1000次：目前的训练损失loss为：2.231
第1个epoch：第 2000次：目前的训练损失loss为：2.032
第1个epoch：第 3000次：目前的训练损失loss为：1.872
第1个epoch：第 4000次：目前的训练损失loss为：1.745
第1个epoch：第 5000次：目前的训练损失loss为：1.702
第1个epoch：第 6000次：目前的训练损失loss为：1.634
第1个epoch：第 7000次：目前的训练损失loss为：1.603
第1个epoch：第 8000次：目前的训练损失loss为：1.548
第1个epoch：第 9000次：目前的训练损失loss为：1.513
第1个epoch：第10000次：目前的训练损失loss为：1.494
第1个epoch：第11000次：目前的训练损失loss为：1.459
第1个epoch：第12000次：目前的训练损失loss为：1.452
第2个epoch：第 1000次：目前的训练损失loss为：1.396
第2个epoch：第 2000次：目前的训练损失loss为：1.372
第2个epoch：第 3000次：目前的训练损失loss为：1.350
第2个epoch：第 4000次：目前的训练损失loss为：1.361
第2个epoch：第 5000次：目前的训练损失loss为：1.338
第2个epoch：第 6000次：目前的训练损失loss为：1.312
第2个epoch：第 7000次：目前的训练损失loss为：1.322
第2个epoch：第 8000次：目前的训练损失loss为：1.289
第2个epoch：第 9000次：目前的训练损失loss为：1.277
第2个epoch：第10000次：目前的训练损失loss为：1.269
第2个epoch：第11000次：目前的训练损失loss为：1.293
第2个epoch：第12000次：目前的训练损失loss为：1.283
用CPU训练总共用时：74.0288839 s

相较于CPU的83秒，GPU用了74秒，快了一些，但提升不够明显。这是因为我们的网络很小，参数也很少。另外我的笔记本的GPU也挺老的，1050核显。

我们在试试用GPU推断会加速多少：


correct = 0
total = 0
Net.to(device)

e1 = cv2.getTickCount()
with torch.no_grad():
    for data in testloader:
        images, labels = data
        images, labels = images.to(device), labels.to(device)
        outputs = Net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

e2 = cv2.getTickCount()
print('用CPU测试总共用时：{} s'.format((e2-e1)/cv2.getTickFrequency()))
print('在测试集上的准确率为：{:.3f}%'.format(correct*100/total))

看看结果如何


用CPU测试总共用时：4.3125164 s
在测试集上的准确率为：54.090%

相较于CPU推断需要5.3秒，使用GPU推断需要4.3秒，速度也有提升。

Original: https://blog.csdn.net/qq_44166630/article/details/121718998
Author: SinHao22
Title: 【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706543/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍

目录模型生成效果展示（prompt 全公开）如何注册 Stable Diffusion 使用 SD（dreamstudio.ai ）的收费标注如何 SD 提供哪些参数可以设置 …

人工智能 2023年7月29日
0045
pfamscan 的使用_使用 HMMER 进行 PFAM 注释

HMMER 简介 HMMER 和 BLAST 类似，主要用于序列比对。 HMMER 与 PFAM 的下载安装安装 HMMER $ wget ftp://selab.janelia…

人工智能 2023年5月27日
00125
自己搭建一个语音聊天室

简述 Clubhouse 在 2020 年 4 月上线，作为一款多人实时在线语音群聊 APP，上线至今也接近快一年了，但在本月初，来自特斯拉 CEO 马斯克在推特上的一条消息，带火…

人工智能 2023年5月27日
0062
封装v-loading全局自定义指令

当我们刷新页面或者是首次加载的时候, 如果后端数据请求比较慢的情况下; 页面是会出现白屏情况的所以我们可以使用 v-loading 去优化一下, 增加用户的体验性我们可以有两种…

人工智能 2023年6月30日
0071
反卷积(Transposed conv deconv)实现原理（通俗易懂）

什么是卷积卷积就是把卷积核放在输入上进行滑窗，将当前卷积核覆盖范围内的输入与卷积核相乘，值进行累加，得到当前位置的输出，其本质在于融合多个像素值的信息输出一个像素值，本质上是下采…

人工智能 2023年6月16日
00118
无人驾驶学习笔记 – A-LOAM 算法代码解析总结

目录 1、概述 2、scanRegistration.cpp 2.1、代码注释 2.1.1、主函数 2.1.2、removeClosedPointCloud（雷达周边过近点移除） …

人工智能 2023年6月1日
0071
PYTORCH学习（3）：多维tensors求余弦相似度和欧氏距离

1、为什么要写这篇blog 因为最近在使用pytorch复现关于图像处理的深度学习论文时，需要求4维张量与4维张量（Batch，Channel，sizeA，sizeB）的余弦相似度…

人工智能 2023年7月21日
0051
逻辑回归模型是否可以用于时间序列数据分析

问题背景介绍逻辑回归模型是一种常用的分类算法，广泛应用于解决二分类问题。然而，时间序列数据具有独特的特征，例如数据点之间的依赖关系和时间的顺序性。因此，问题是：逻辑回归模型是否适…

人工智能 2023年12月31日
0036
Opencv-Python学习（二）———图像处理

目录一、阈值处理二、图像的平滑处理三、腐蚀与膨胀一、阈值处理 import cv2 as cv import numpy as np from matplotlib imp…

人工智能 2023年7月20日
0048
python 多项式回归以及可视化

python 多项式回归以及可视化简介一、一元N次多项式回归 * 1.1 可视化 1.2 代码二、二元二次多项式回归 * 2.1 可视化 2.2 代码简介多项式回归:回归…

人工智能 2023年6月15日
0073
【语音合成】基于matlab两端音频合成【含Matlab源码 1490期】

⛄一、获取代码方式（附实验报告）获取代码方式1：完整代码已上传我的资源：【语音合成】基于matlab两端音频合成【含Matlab源码 1490期】点击上面的蓝色字体，付费直接下载…

人工智能 2023年5月25日
0083
YOLOv5-6.1添加注意力机制（SE、CBAM、ECA、CA）

目录 0. 添加方法 1. SE * 1.1 SE 1.2 C3-SE 2. CBAM * 2.1 CBAM 2.2 C3-CBAM 3. ECA * 3.1 ECA 3.2 C3…

人工智能 2023年6月16日
0090
OpenCV 通过计算连通域面积过滤面积小的区域–Python

代码参考：https://blog.csdn.net/u014264373/article/details/119486850 通过卷积神经网络预测图像的分割结果时，会发现分割外部…

人工智能 2023年6月18日
0064
【CV第三篇】目标检测风云二十年

目录 Anchor-free目标检测算法 One-Stage目标检测算法 Two-Stage目标检测算法开篇寄语气如云气，自我纵横。天地洞明，万物可兵。魔方导读目标检测 …

人工智能 2023年7月12日
0065
异步复位同步释放

目录：异步复位同步释放 * 1.复位目的： 2.同步复位： 3.异步复位： 4.异步复位同步释放：异步复位同步释放 ; 1.复位目的：对一个芯片来说，复位的主要目的是使芯片电…

人工智能 2023年5月30日
0079
知识图谱task02

一.搭建知识图谱下载基于医疗领域知识图谱的问答系统 git clone https://github.com/zhihao-chen/QASystemOnMedicalGraph…

人工智能 2023年6月10日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【PyTorch】从头搭建并训练一个神经网络模型（图像分类、CNN）

目录

大家都在看