【图像分类案例】(8) ResNet50 鸟类图像4分类，附Pytorch完整代码

2023年7月21日上午7:06 • 人工智能 • 阅读 53

大家好，今天和大家分享一些如何使用 Pytorch 搭建 ResNet50 卷积神经网络模型，并使用迁移学习的思想训练网络，完成鸟类图片的预测。

ResNet 的原理和 TensorFlow2 实现方式可以看我之前的两篇博文，这里就不详细说明原理了。

ResNet18、34： https://blog.csdn.net/dgvv4/article/details/122396424

ResNet50： https://blog.csdn.net/dgvv4/article/details/121878494

1. 模型构建

首先导入网络构建过程中所有需要用到的工具包， 本小节的所有代码写在 ResNet.py 文件中

import torch
from torch import nn
from torchstat import stat  # 查看网络参数
from torchsummary import summary  # 查看网络结构

1.1 构建单个残差块

残差单元的结构如下图所示，一种是 基本模块，即 输入特征图的尺寸和输出特征层的尺寸相同，两个特征图可以直接叠加；一种是 下采样模块，即 主干部分对输入特征图使用 stride=2 的下采样卷积，使得 输入特征图的尺寸变成原来的一半，那么 残差边部分也需要对输入特征图进行下采样操作，使得 输入特征图经过残差边处理后的 shape 能和主干部分处理后的特征图 shape 相同，从而能够将残差边输出和主干输出直接叠加。

【图像分类案例】(8) ResNet50 鸟类图像4分类，附Pytorch完整代码

以下图基本残差块为例，先对输入图像使用 11 卷积下降通道数，在低维空间下使用 33 卷积提取特征，然后再使用 1*1 卷积上升通道数，残差连接输入和输出，将叠加后的结果进过 relu 激活函数。

代码如下：

-------------------------------------------- #
#（1）残差单元
x--> 卷积 --> bn --> relu --> 卷积 --> bn --> 输出
|---------------Identity(短接)----------------|
'''
in_channel   输入特征图的通道数
out_channel  第一次卷积输出特征图的通道数
stride=1     卷积块中3*3卷积的步长
downsample   是否下采样
'''
-------------------------------------------- #
class Bottleneck(nn.Module):
    # 最后一个1*1卷积下降的通道数
    expansion = 4

    # 初始化
    def __init__(self, in_channel, out_channel, stride=1, downsample=None):
        # 继承父类初始化方法
        super(Bottleneck, self).__init__()

        # 属性分配
        # 1*1卷积下降通道，padding='same'，若stride=1，则[b,in_channel,h,w]==>[b,out_channel,h,w]
        self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel,
                               kernel_size=1, stride=1, padding=0, bias=False)

        # BN层是计算特征图在每个channel上面的均值和方差，需要给出输出通道数
        self.bn1 = nn.BatchNorm2d(out_channel)

        # relu激活, inplace=True节约内存
        self.relu = nn.ReLU(inplace=True)

        # 3*3卷积提取特征，[b,out_channel,h,w]==>[b,out_channel,h,w]
        self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel,
                               kernel_size=3, stride=stride, padding=1, bias=False)

        # BN层, 有bn层就不需要bias偏置
        self.bn2 = nn.BatchNorm2d(out_channel)

        # 1*1卷积上升通道 [b,out_channel,h,w]==>[b,out_channel*expansion,h,w]
        self.conv3 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel*self.expansion,
                               kernel_size=1, stride=1, padding=0, bias=False)

        # BN层，对out_channel*expansion标准化
        self.bn3 = nn.BatchNorm2d(out_channel*self.expansion)

        # 记录是否需要下采样, 下采样就是第一个卷积层的步长=2，输入和输出的图像的尺寸不一致
        self.downsample = downsample

    # 前向传播
    def forward(self, x):

        # 残差边
        identity = x

        # 如果第一个卷积层stride=2下采样了，那么残差边也需要下采样
        if self.downsample is not None:
            # 下采样方法
            identity = self.downsample(x)

        # 主干部分
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)

        x = self.conv2(x)
        x = self.bn2(x)
        x = self.relu(x)

        x = self.conv3(x)
        x = self.bn3(x)

        # 残差连接
        x = x + identity
        # relu激活
        x = self.relu(x)

        return x  # 输出残差单元的结果

1.2 构建网络

我们已经成功构建完单个残差单元的类，而残差结构就是由多个残差单元堆叠而来的， ResnNet50 中有 4 组残差结构，每个残差结构分别堆叠了 3，4，6，3 个残差单元，如下图所示。

第一个残差结构中的第一个残差单元只需要调整输入特征图的通道数，不需要改变特征图的尺寸；而 其他三个的残差结构的第一个残差单元不仅需要对输入特征图调整通道数，还要对输入特征图进行下采样操作。

代码如下：

-------------------------------------------- #
#（2）网络构建
'''
block： 残差单元
blocks_num： 每个残差结构使用残差单元的数量
num_classes： 分类数量
include_top： 是否包含分类层（全连接）
'''
-------------------------------------------- #
class ResNet(nn.Module):
    # 初始化
    def __init__(self, block, blocks_num, num_classes=1000, include_top=True):
        # 继承父类初始化方法
        super(ResNet, self).__init__()

        # 属性分配
        self.include_top = include_top
        self.in_channel = 64  # 第一个卷积层的输出通道数

        # 7*7卷积下采样层处理输入图像 [b,3,h,w]==>[b,64,h,w]
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=self.in_channel,
                               kernel_size=7, stride=2, padding=3, bias=False)

        # BN对每个通道做标准化
        self.bn1 = nn.BatchNorm2d(self.in_channel)

        # relu激活函数
        self.relu = nn.ReLU(inplace=True)

        # 3*3最大池化层 [b,64,h,w]==>[b,64,h//2,w//2]
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)

        # 残差卷积块
        # 第一个残差结构不需要下采样只需要调整通道
        self.layer1 = self._make_layer(block, 64, blocks_num[0])
        # 下面的残差结构的第一个残差单元需要进行下采样
        self.layer2 = self._make_layer(block, 128, blocks_num[1], stride=2)
        self.layer3 = self._make_layer(block, 256, blocks_num[2], stride=2)
        self.layer4 = self._make_layer(block, 512, blocks_num[3], stride=2)

        # 分类层
        if self.include_top:
            # 自适应全局平均池化，无论输入特征图的shape是多少，输出特征图的(h,w)==(1,1)
            self.avgpool = nn.AdaptiveAvgPool2d((1,1))  # output
            # 全连接分类
            self.fc = nn.Linear(512*block.expansion, num_classes)

        # 卷积层权重初始化
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out')

    # 残差结构
    '''
    block: 代表残差单元
    channel: 残差结构中第一个卷积层的输出通道数
    block_num: 代表一个残差结构包含多少个残差单元
    stride: 是否下采样stride=2
    '''
    def _make_layer(self, block, channel, block_num, stride=1):

        # 是否需要进行下采样
        downsample = None

        # 如果stride=2或者残差单元的输入和输出通道数不一致
        # 就对残差单元的shortcut部分执行下采样操作
        if stride != 1 or self.in_channel != channel * block.expansion:

            # 残差边需要下采样
            downsample = nn.Sequential(
                # 对于第一个残差单元的残差边部分只需要调整通道
                nn.Conv2d(in_channels=self.in_channel, out_channels=channel*block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(channel*block.expansion))

        # 一个残差结构堆叠多个残差单元
        layers = []
        # 先堆叠第一个残差单元，因为这个需要下采样
        layers.append(block(self.in_channel, channel, stride=stride, downsample=downsample))

        # 获得第一个残差单元的输出特征图个数, 作为第二个残差单元的输入
        self.in_channel = channel * block.expansion

        # 堆叠剩下的残差单元，此时的shortcut部分不需要下采样
        for _ in range(1, block_num):
            layers.append(block(self.in_channel, channel))

        # 返回构建好了的残差结构
        return nn.Sequential(*layers)  # *代表将layers以非关键字参数的形式返还

    # 前向传播
    def forward(self, x):
        # 输入层
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        # 残差结构
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        # 分类层
        if self.include_top:
            # 全局平均池化
            x = self.avgpool(x)
            # 打平
            x = torch.flatten(x, 1)
            # 全连接分类
            x = self.fc(x)

        return x

1.3 查看网络结构

[3,4,6,3] 代表四个残差结构中分别堆叠了多少个残差单元，include_top=True 代表包含网络的分类层，默认是1000个分类，即全连接层输出预测结果。网络结构如下图所示：

构建resnet50
def resnet50(num_classes=1000, include_top=True):
    return  ResNet(Bottleneck, [3,4,6,3], num_classes=num_classes, include_top=include_top)

if __name__ == '__main__':

    # 接收网络模型
    model = resnet50()
    # print(model)

    # 查看网络参数量，不需要指定输入特征图像的batch维度
    stat(model, input_size=(3,224,224))

    # 查看网络结构及参数
    summary(model, input_size=[(3,224,224)], device='cpu')

网络的参数量和计算量如下：

================================================================
Total params: 25,557,032
Trainable params: 25,557,032
Non-trainable params: 0

2. 网络训练

2.1 文件配置

首先我们需要将接下来所有用到的文件包，文件路径，先写好了方便统一管理。 使用迁移学习的方法训练网络。

import torch
from torch import nn, optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
from ResNet import resnet50  # 从自定义的ResNet.py文件中导入resnet50这个函数
import numpy as np
import matplotlib.pyplot as plt

-------------------------------------------------- #
#（0）参数设置
-------------------------------------------------- #
batch_size = 32  # 每个step训练32张图片
epochs = 10  # 共训练10次

-------------------------------------------------- #
#（1）文件配置
-------------------------------------------------- #
数据集文件夹位置
filepath = 'D:/deeplearning/test/数据集/4种鸟分类/new_data/'
权重文件位置
weightpath = 'D:/deeplearning/imgnet/pytorchimgnet/pretrained_weights/resnet50.pth'
权重保存文件夹路径
savepath = 'D:/deeplearning/imgnet/pytorchimgnet/save_weights/'

获取GPU设备
if torch.cuda.is_available():  # 如果有GPU就用，没有就用CPU
    device = torch.device('cuda:0')
else:
    device = torch.device('cpu')

2.2 构造数据集

首先定义训练集和验证集的数据预处理函数。将 输入图像的尺寸变成模型要求的 224*224 大小，然后再 将像素值类型从 numpy 变成 tensor 类型，并归一化处理， 像素值大小从 [0,255] 变换到 [0,1]，再调整输入 图像的维度，从 [h,w,c] 变成 [c,h,w]；接着 对图像的每个颜色通道做标准化处理， 使像素值满足以0.5为均值，0.5为方差的正态分布。

预处理之后就构造训练集和验证集，指定 batch_size=32，代表训练时每个 step 训练32张图片

-------------------------------------------------- #
#（2）构造数据集
-------------------------------------------------- #
训练集的数据预处理
transform_train = transforms.Compose([
    # 数据增强，随机裁剪224*224大小
    transforms.RandomResizedCrop(224),
    # 数据增强，随机水平翻转
    transforms.RandomHorizontalFlip(),
    # 数据变成tensor类型，像素值归一化，调整维度[h,w,c]==>[c,h,w]
    transforms.ToTensor(),
    # 对每个通道的像素进行标准化，给出每个通道的均值和方差
    transforms.Normalize(mean=(0.5,0.5,0.5), std=(0.5,0.5,0.5))])

验证集的数据预处理
transform_val = transforms.Compose([
    # 将输入图像大小调整为224*224
    transforms.Resize((224,224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=(0.5,0.5,0.5), std=(0.5,0.5,0.5))])

读取训练集并预处理
train_dataset = datasets.ImageFolder(root=filepath + 'train',  # 训练集图片所在的文件夹
                                     transform = transform_train)  # 训练集的预处理方法

读取验证集并预处理
val_dataset = datasets.ImageFolder(root=filepath + 'val',  # 验证集图片所在的文件夹
                                     transform = transform_val)  # 验证集的预处理方法

查看训练集和验证集的图片数量
train_num = len(train_dataset)
val_num = len(val_dataset)
print('train_num:', train_num, 'val_num:', val_num)   # 453, 112

查看图像类别及其对应的索引
class_dict = train_dataset.class_to_idx
print(class_dict)  # {'Bananaquit': 0, 'Black Skimmer': 1, 'Black Throated Bushtiti': 2, 'Cockatoo': 3}
将类别名称保存在列表中
class_names = list(class_dict.keys())

构造训练集
train_loader = DataLoader(dataset=train_dataset,  # 接收训练集
                          batch_size=batch_size,  # 训练时每个step处理32张图
                          shuffle=True,           # 打乱每个batch
                          num_workers=0)          # 加载数据时的线程数量，windows环境下只能=0

构造验证集
val_loader = DataLoader(dataset=val_dataset,
                        batch_size=batch_size,
                        shuffle=False,
                        num_workers=0)

2.3 数据可视化

接下来查看一下数据集中构造的图片和标签是什么样的，这里要注意的是 在预处理时已经对整个数据集做了归一化和以 0.5 为均值 0.5 为方差做的标准化。 这里需要做一次反标准化，img = img / 2 + 0.5，变会归一化之后的结果 。不然画出来的图太抽象了。

标准化：

反标准化：

-------------------------------------------------- #
#（3）数据可视化
-------------------------------------------------- #
取出一个batch的训练集，返回图片及其标签
train_img, train_label = iter(train_loader).next()
查看shape, img=[32,3,224,224], label=[32]
print(train_img.shape, train_label.shape)

从一个batch中取出前9张图片
img = train_img[:9]  # [9, 3, 224, 224]
将图片反标准化，像素变到0-1之间
img = img / 2 + 0.5
tensor类型变成numpy类型
img = img.numpy()
class_label = train_label.numpy()
维度重排 [b,c,h,w]==>[b,h,w,c]
img = np.transpose(img, [0,2,3,1])

创建画板
plt.figure()
绘制四张图片
for i in range(img.shape[0]):
    plt.subplot(3,3,i+1)
    plt.imshow(img[i])
    plt.xticks([])  # 不显示x轴刻度
    plt.yticks([])  # 不显示y轴刻度
    plt.title(class_names[class_label[i]])  # 图片对应的类别

plt.tight_layout()  # 轻量化布局
plt.show()

绘制前9张图片及其标签：

2.4 模型构建

首先导入我们构建的 resnet50 网络模型， 它默认有 1000 个分类，也就是网络的最后一个全连接层的输出结果和我们当前的任务不一样。

通过 torch.load()将权重文件加载到内存中，再通过 net.load_state_dict()将网络的每一层权重加载上来。此时的全连接层是1000分类，因此我们将它修改为4分类的，通过 net.fc.in_features 获取最后一个全连接层的输入通道数，然后再 重写这个全连接层 net.fc = nn.Linear(in_channel, 4)将其 输出神经元个数改成4个。

-------------------------------------------------- #
#（4）加载模型
-------------------------------------------------- #
1000分类层
net = resnet50(num_classes=1000, include_top=True)

加载预训练权重
net.load_state_dict(torch.load(weightpath, map_location=device))

为网络重写分类层
in_channel = net.fc.in_features  # 2048
net.fc = nn.Linear(in_channel, 4)  # [b,2048]==>[b,4]

将模型搬运到GPU上
net.to(device)
定义交叉熵损失
loss_function = nn.CrossEntropyLoss()
定义优化器
optimizer = optim.Adam(net.parameters(), lr=0.002)

保存准确率最高的一次迭代
best_acc = 0.0

2.5 训练与验证

这里要注意的就是网络训练和测试的模式不一样， 训练时 Dropout 层随机杀死神经元，BN层计算在 batch 维度上计算均值和方差； 验证时 Dropout 层不起作用，BN 层去整个训练集计算得到的均值和方差。通过 net.train()和 net.eval()来 切换训练和验证模式。

-------------------------------------------------- #
#（5）网络训练
-------------------------------------------------- #
for epoch in range(epochs):

    print('-'*30, '\n', 'epoch:', epoch)

    # 将模型设置为训练模型, dropout层和BN层只在训练时起作用
    net.train()

    # 计算训练一个epoch的总损失
    running_loss = 0.0

    # 每个step训练一个batch
    for step, data in enumerate(train_loader):
        # data中包含图像及其对应的标签
        images, labels = data

        # 梯度清零，因为每次计算梯度是一个累加
        optimizer.zero_grad()

        # 前向传播
        outputs = net(images.to(device))

        # 计算预测值和真实值的交叉熵损失
        loss = loss_function(outputs, labels.to(device))

        # 梯度计算
        loss.backward()

        # 权重更新
        optimizer.step()

        # 累加每个step的损失
        running_loss += loss.item()

        # 打印每个step的损失
        print(f'step:{step} loss:{loss}')

-------------------------------------------------- #
#（6）网络验证
-------------------------------------------------- #
    net.eval()  # 切换为验证模型，BN和Dropout不起作用

    acc = 0.0   # 验证集准确率

    with torch.no_grad():  # 下面不进行梯度计算

        # 每次验证一个batch
        for data_test in val_loader:

            # 获取验证集的图片和标签
            test_images, test_labels = data_test

            # 前向传播
            outputs = net(test_images.to(device))

            # 预测分数的最大值
            predict_y = torch.max(outputs, dim=1)[1]

            # 累加每个step的准确率
            acc += (predict_y == test_labels.to(device)).sum().item()

        # 计算所有图片的平均准确率
        acc_test = acc / val_num

        # 打印每个epoch的训练损失和验证准确率
        print(f'total_train_loss:{running_loss/step}, total_test_acc:{acc_test}')

-------------------------------------------------- #
#（7）权重保存
-------------------------------------------------- #
        # 保存最好的准确率的权重
        if acc_test > best_acc:
            # 更新最佳的准确率
            best_acc = acc_test
            # 保存的权重名称
            savename = savepath + 'resnet50.pth'
            # 保存当前权重
            torch.save(net.state_dict(), savename)

训练过程如下：

`python

Original: https://blog.csdn.net/dgvv4/article/details/124908930
Author: 立Sir
Title: 【图像分类案例】(8) ResNet50 鸟类图像4分类，附Pytorch完整代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706568/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

I-TASSER连续八届在CASP自动组竞赛中蝉联冠军

蛋白质是生命的承载者，几乎支撑着生命的所有功能，细胞内发生的大部分反应都依赖于蛋白质。蛋白质的工作方式和功能取决于它独特的三维结构，也就是我们常说的” 结构决定功能&…

人工智能 2023年7月17日
0066
pytorch libtorch 不同版本对应的cuda

官网链接：Previous PyTorch Versions | PyTorch食用方法：注意低版本的 pytorch 是否支持更高版本的 cuda。（高版本的pytorch一般能…

人工智能 2023年7月21日
0073
【分类模型】聚类分析

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0049
【干货原创】Pandas&SQL语法归纳总结，真的太全了

对于数据分析师而言， Pandas与 SQL可能是大家用的比较多的两个工具，两者都可以对数据集进行深度的分析，挖掘出有价值的信息，但是二者的语法有着诸多的不同，今天小编就来总结归纳…

人工智能 2023年6月11日
0084
友链推荐

Soaring Lee https://soaringleefighting.github.io/信息与信息处理专业硕士，擅长视频编解码、图像处理和算法优化方向，使用C/C++、…

人工智能 2023年6月4日
0097
图像处理那些算法

图像的几何变换 1）旋转借助矩阵运算来实现图像的旋转功能 2）平移借助矩阵运算来实现图像的旋转功能 3）对称借助矩阵运算来实现图像的对称功能水平镜像变换：垂直镜像变换： ; 图片…

人工智能 2023年6月17日
0059
彻底搞懂float16与float32的计算方式

1 float 16与float 32 1.1 float16 1.1.1 计算方式 float 16又称半精度，用16个比特也就是2个字节表示一个数。如下图所示，其中1位符号…

人工智能 2023年6月15日
0074
yolov3模型训练——使用yolov3训练自己的模型

本文主要讲述了在Windows10环境下使用yolov3训练模型的具体步骤本文主要包括以下内容：一、程序下载与准备 * （1）yolov3下载（2）训练集文件夹创建（3）预…

人工智能 2023年7月23日
00100
消失的以太

以太——最早作为传播光的介质，竟然被证实不存在？什么是以太？它与以太网有何关系？以太是亚里士多德设想的一种物质，在他看来物质除水火土气之外，还有一种居于天空上层之外的以太，因此…

人工智能 2023年6月4日
0061
Python数据分析之pandas

Python Data Analysis Library或 pandas是基于 NumPy的一种工具，该工具是为了解决数据分析任务而创建的 Pandas纳入了大量库和一些标准的数据…

人工智能 2023年7月8日
0044
进阶版的Pandas数据分析神器：Polars

相信对于不少的数据分析从业者来说呢，用的比较多的是 Pandas以及 SQL这两种工具， Pandas不但能够对数据集进行清理与分析，并且还能够绘制各种各样的炫酷的图表，但是遇到数…

人工智能 2023年7月18日
0048
I-BERT: Integer-only BERT Quantization 论文学习

论文链接：https://proceedings.mlr.press/v139/kim21d.html 摘要基于转换器的模型，如BERT和RoBERTa，已经在许多自然语言处理任…

人工智能 2023年7月14日
0075
调用“抱抱脸团队打造的Transformers pipeline API” && 通过预训练模型，快速训练和微调自己的模型

本文章根据官方文件总结而成，根据第三方库Transformers and pytorch快速搭建自己的神经网络架构，可以直接下载预训练模型，涉及的数据集包括音频、文字、图像等，实用…

人工智能 2023年7月13日
0057
Flask入门学习教程

Flask学习文章目录 Flask学习 1.简介 2.安装 3.最小的应用 4.路由 5.变量规则 6.URL构建 7.HTTP方法 8.文件存放 9.渲染模板 10.Reque…

人工智能 2023年7月4日
0092
土地利用/土地覆盖数据整理

土地利用/土地覆盖数据是开展地理、生态、环境等研究的基础数据，本文对目前主流且开源的土地利用数据进行整理，随时更新，欢迎补充！ 1. GlobeLand30 中国向联合国提供的首个…

人工智能 2023年6月16日
0058
数据分析案例-基于随机森林算法探索影响人类预期寿命的因素并预测人类预期寿命

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月12日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31