使用ResNet-50实现图像分类任务

2023年6月16日下午11:32 • 人工智能 • 阅读 97

摘要：

承接上一篇LeNet网络模型的图像分类实践，本次我们再来认识一个新的网络模型：ResNet-50。不同网络模型之间的主要区别是神经网络层的深度和层与层之间的连接方式，正文内容我们就分析下使用ResNet-50进行图像分类有什么神奇之处，以下操作使用MindSpore框架实现。

1.网络：ResNet-50

对于类似LeNet网络模型深度较小并且参数也较少，训练起来会相对简单，也很难会出现梯度消失或爆炸的情况。但ResNet-50的深度较大，训练起来就会比较困难，所以在加深网络深度的同时提出残差学习的结构来减轻深层网络训练的难度。重新构建了网络以便学习包含推理的残差函数，而不是学习未经过推理的函数。实验结果显示，残差网络更容易优化，并且加深网络层数有助于提高正确率。

*深度模型的限制

深度卷积网络在图像分类任务上有非常优秀的表现。深度网络依赖于多层端到端的方式，集成了低中高三个层次的特征和分类器，并且这些特征的数量还可以通过堆叠层数来增加。这也展示出了网络深度非常重要。

但是随着网络层数的增加，训练时就会遇到梯度消失或爆炸的情况，这会在一开始就影响收敛。收敛的问题可以通过正则化来得到部分的解决，但也不是通用的方法。并且在深层网络能够收敛的前提下，随着网络深度的增加，正确率开始饱和甚至下降，称之为网络的退化。

图1：56层和20层网络效果图

通过上图1可以发现在不改变网络结构的情况下，仅加深网络深度的56层网络相较于20层在误差上表现都更大。

R esNet-50 *的残差结构

对于网络退化现象并不是过拟合造成的。在给定的网络上增加层数就会增大训练误差。这说明不是所有的系统都很容易优化。我们可以先分析一个浅层的网络架构和在它基础上构建的深层网络，如果增加的所有层都是前一层的直接复制（即y=x），这种情况下深层网络的训练误差应该和浅层网络相等。因此，网络退化的根本原因还是优化问题。为了解决优化的难题，大佬们提出了残差网络，在ResNet-50中残差网络结构可分为Identity Block和Conv Block，下面分别介绍下。

Identity Block：在残差网络中，不是让网络直接拟合原先的映射，而是拟合残差映射。意味着后面的特征层的内容会有一部分由前面的某一层线性贡献。假设原始的映射为 H(x)，残差网络拟合的映射为：F(x)：=H(x)。输入和输出的维度（通道数和Size）是一样的，所以可以串联，它的主要用处是加深网络的深度。

图2：Identity Block结构

如图2中所示，identity mapping会直接跳过中间一些网络层，建立了一些快捷链接，直接恒等映射过去。这样的快捷链接不会增加模型的复杂度和参数。

Conv Block：在Identity Block的残差结构基础上，又增加了Conv的过程。输入和输出的维度（通道数和Size）是不一样的，所以不能进行连续的串联，它的作用是改变网络的维度，所以残差边上新增了卷积。

图3：Conv Block结构

如图3中所示，Conv Block将在残差的通道上经过一轮卷积处理。再将卷积处理后的结果给到后面的网络层中。

Conv Block的具体设置需要看Block的输入和输出，对照通道数和Size的变化，设定符合需求的Conv。

R esNet-50 *的整体结构

上面了解完了残差结构和用途，现在我们再带入到ResNet-50中看下整体的结构

图4：ResNet结构图

从左到右依次的分析，图4最左边是ResNet-50的步骤图，后面是将每个步骤再拆解Input stem是正常的输入和处理。Stage1->Stage4就是包含了加深网络深度的Identity Block和Conc Block的模块，同时避免了计算训练困难和网络的退化的问题。

*ResNet-50的调用

MindSpore已上线支持该模型，我们可以直接调用该模型的接口，所以我们在使用过程中传入定义好的超参数和数据即可。

network = resnet50(class_num=10)

如果想要了解下更底层的参数设置，可以查看https://gitee.com/mindspore/models/blob/master/official/cv/resnet/config/resnet50_cifar10_config.yaml。

论文链接：https://arxiv.org/pdf/1512.03385.pdf

2.数据集：CIFAR-10

数据集CIFAR-10由10个类的60000个32×32彩**像组成，每个类有6000个图像。有50000个训练图像和10000个测试图像。

*数据集结构

CIFAR-10数据集的原文连接中包含三种类型的数据集，这里可以根据自己的需求进行下载。这里我们使用python版本数据集。

Version Size

CIFAR-10 python version 163 MB

CIFAR-10 Matlab version 175 MB

CIFAR-10 binary version (suitable for C programs) 162 MB

数据集中所包含的类别

图5：CIFAR-10类别图

*数据加载和处理

数据加载：下载完成后将数据集放在一个文件目录下，将目录传入到数据的加载过程中。

cifar_ds = ds.Cifar10Dataset(data_home)

数据增强：是对数据进行归一化和丰富数据样本数量。常见的数据增强方式包括裁剪、翻转、色彩变化等等。MindSpore通过调用map方法在图片上执行增强操作。

resize_height = 224

resize_width = 224

rescale = 1.0 / 255.0

shift = 0.0

define map operations

random_crop_op = C.RandomCrop((32, 32), (4, 4, 4, 4)) # padding_mode default CONSTANT

random_horizontal_op = C.RandomHorizontalFlip()

resize_op = C.Resize((resize_height, resize_width)) # interpolation default BILINEAR

rescale_op = C.Rescale(rescale, shift)

normalize_op = C.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))

changeswap_op = C.HWC2CHW()

type_cast_op = C2.TypeCast(mstype.int32)

c_trans = []

if training:

    c_trans = [random_crop_op, random_horizontal_op]

c_trans += [resize_op, rescale_op, normalize_op, changeswap_op]

apply map operations on images

cifar_ds = cifar_ds.map(operations=type_cast_op, input_columns="label")

cifar_ds = cifar_ds.map(operations=c_trans, input_columns="image")

最后通过数据混洗（shuffle）随机打乱数据的顺序，并按batch读取数据，进行模型训练。

apply shuffle operations

cifar_ds = cifar_ds.shuffle(buffer_size=10)

apply batch operations

cifar_ds = cifar_ds.batch(batch_size=args_opt.batch_size, drop_remainder=True)

apply repeat operations

cifar_ds = cifar_ds.repeat(repeat_num)

3.损失函数：SoftmaxCrossEntropyWithLogits

本次训练调用的损失函数是：SoftmaxCrossEntropyWithLogits。那为什么是SoftmaxCrossEntropyWithLogits损失函数呢？

*损失函数的选择

我们上面提到，为什么是使用SoftmaxCrossEntropyWithLogits损失函数呢，这要从我们本次的实验目的分析。

本次项目的：实现CIFAR-10图像数据集的分类。既然是分类，那么分类中的损失函数是怎么计算的，它是计算logits和标签之间的softmax交叉熵。使用交叉熵损失测量输入概率（使用softmax函数计算）与类别互斥（只有一个类别为正）的目标之间的分布误差，具体公式可以表示成

图6：SoftmaxCrossEntropyWithLogits表达式

*损失函数参数分析
logits (Tensor) – Tensor of shape (N, C). Data type must be float16 or float32.
labels (Tensor) – Tensor of shape (N, ). If sparse is True, The type of labels is int32 or int64. Otherwise, the type of labels is the same as the type of logits.

第一个参数logits：就是神经网络最后一层的输出，如果有batch的话，它的大小就是[batchsize，num_classes]，单样本的话，大小就是num_classes；第二个参数labels：实际的标签，大小同上。

*损失函数的使用

#&#x5728;&#x4E3B;&#x51FD;&#x6570;&#x5904;&#x8C03;&#x7528;&#x5982;&#x4E0B;

if __name__ == '__main__':

    ls = SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")

    model = Model(loss_fn=ls)

更详细的使用请参考SoftmaxCrossEntropyWithLogits API链接:https://mindspore.cn/docs/api/zh-CN/master/api_python/nn/mindspore.nn.SoftmaxCrossEntropyWithLogits.html#mindspore.nn.SoftmaxCrossEntropyWithLogits

4.优化器：Momentum

本次训练中我们使用的是Momentum，也叫动量优化器。为什么是它？下面我们了解下它的计算原理。

*优化器的计算

图7：Momentum表达式

上面表达式中的grad、lr、p、v 和 u 分别表示梯度、learning_rate、参数、矩和动量。其中的梯度是通过损失函数求导得出的，在训练过程中得到的Loss是一个连续值，那么它就有梯度可求，并反向传播给每个参数。Momentum优化器的主要思想就是利用了类似移动指数加权平均的方法来对网络的参数进行平滑处理的，让梯度的摆动幅度变得更小。

*优化器的使用

#&#x5728;&#x4E3B;&#x51FD;&#x6570;&#x5904;&#x8C03;&#x7528;&#x5982;&#x4E0B;

if __name__ == '__main__':

    opt = Momentum(filter(lambda x: x.requires_grad, net.get_parameters()), 0.01, 0.9)

    model = Model(optimizer=opt)

更详细的使用请参考Momentum API链接:https://mindspore.cn/docs/api/zh-CN/master/api_python/nn/mindspore.nn.Momentum.html#mindspore.nn.Momentum

5.评价指标：Accuracy

损失函数的值虽然可以反应网络的性能，但对于图片分类的任务，使用精度可以更加准确的表示最终的分类结果。

*精度指标的选择

基于分类任务的考虑，我们使用简单的分类正确数量/总数量来表示，也就是Accuracy。精度表达式比较简单，也好理解。

图8：Accuracy达式

*精度的使用

#&#x5728;&#x4E3B;&#x51FD;&#x6570;&#x5904;&#x8C03;&#x7528;&#x5373;&#x53EF;

if __name__ == '__main__':

model = Model(metrics={'acc'})

更详细的使用请参考Accuracy API链接:https://mindspore.cn/docs/api/zh-CN/master/api_python/nn/mindspore.nn.Accuracy.html#mindspore.nn.Accuracy

总结：

本次内容是以图像分类任务为例，首先要了解下我们本次使用的模型结构以及要完成的目标，本次内容和LeNet网络图像分类的区别是使用网络和数据集的不同，所以可重点对照下两种网络结构。然后是选择设置失函数、优化器和精度这几部分，构成完整的训练。谢谢赏阅。

Original: https://blog.csdn.net/weixin_45666880/article/details/122712330
Author: 小乐快乐
Title: 使用ResNet-50实现图像分类任务

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627297/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于大数据的NBA球员数据分析及预测系统

温馨提示：文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 项目简介大数据技术在体育产业方面也具有重要作用。篮球是众多体育项目中受关注度最高的一项体育运动…

人工智能 2023年7月15日
0054
【TensorFlow2.0】(1) tensor数据类型，类型转换

各位同学好，今天和大家分享一下TensorFlow2.0中的tensor数据类型，以及各种类型之间的相互转换方法。 1. tf.tensor 基础操作 scaler标量：1.2 v…

人工智能 2023年6月15日
0065
PyTorch环境搭建、安装过程以及卸载(anaconda+清华镜像+安装pyTorch）

本文介绍基于Anaconda环境以及PyCharm软件结合，安装PyTorch深度学习框架。一. 安装anaconda 此处默认已经安装好了anaconda.(也可以去anaco…

人工智能 2023年6月15日
0068
基于Pytorch全连接神经网络实现多分类

为了方便开发者应用，PyTorch专门开发了一个视觉工具包torchvision，主要包含以下三个部分： 1.models models提供了深度学习中各种经典的神经网络及预训练模…

人工智能 2023年7月2日
0075
使用OpenCV、ONNXRuntime部署YOLOV7目标检测——记录贴

这两天想实现yolov5的tensort加速，小白一枚，领悟甚浅，只能记录一下，防止遗忘了。先记录一下yolov7： yolov7的OpenCV、ONNXRuntime部署分享…

人工智能 2023年7月9日
0080
NVIDIA驱动版本与Tensorflow版本和Cuda版本对应关系

-Tensorflow版本与cuda版本具有对应关系而不同的cuda版本有NVIDIA驱动版本最低要求如需使用高版本的tensorflow，而且需要安装cuda时，首先检查 ps…

人工智能 2023年5月23日
00112
Two-pass连通域标记方法与opencv代码实现

连通域是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域，一般使用二值图像表示。连通标记是指将图像中的各个连通区域找出并标记为响应的标号。 wo-Pass（两遍扫描法） …

人工智能 2023年6月20日
00145
单纯形法Python实现

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录前言一、单纯形法理论基础二、Python代码实现 1.循环求解 2.最优性检验 3.结果输出 4.完整代…

人工智能 2023年7月5日
0078
[李宏毅深度学习作业] 作业1：ML2021Spring-hw1 COVID-19 Cases Prediction【以时间线为记录】

写在开头：此篇博客主要是记录李宏毅老师2021年春季的深度学习作业1的笔记过程，以时间的角度进行记录。 COVID-19 Cases Prediction 8月27号[初步操作] …

人工智能 2023年6月25日
0088
Python制作七夕表白实例项目-让你的情人心动起来

文章目录 Python制作七夕表白实例项目-让你的情人心动起来前言一、记录一起走过的那些日子二、创意代码表白 * 2.1、效果演示 2.2、制作步过程 – 2.2…

人工智能 2023年7月4日
0087
如何在Framework中优化AI算法的性能

如何在Framework中优化AI算法的性能在使用Framework进行AI算法的开发和优化时，我们可以采取一系列的措施来提高算法的性能。本文将详细介绍如何在Framework中…

人工智能 2024年1月1日
0038
软件工程应用与实践（十三）：三种新文本识别算法介绍

2021SC@SDUSC 目录一、前情回顾 1.1 PP-OCR文字识别算法和本文策略介绍二、SEED策略介绍 2.1 SEED是做什么的？ 2.2 SEED是怎么工作的？ 2…

人工智能 2023年7月14日
0086
安装MMdetection3D和MinkowskiEngine

MMdetection3D更新了,只好再次安装,由于CUDA,cuDNN,PyTorch以前已经安装了,这次就不需要安装了,只需要安装MMdetection3D就行了. 安装MMC…

人工智能 2023年6月4日
0071
数字化转型的四大典型场景，TempoBI来支持

当企业发展到一定规模的时候，如何进行业务管理，就变成了比业务增长更为棘手的首要难题。企业管理颗粒度越细致，越是重视对日常业务数据的梳理和分析。但这类企业，特别容易陷入到&#8221…

人工智能 2023年6月11日
0084
如何进行模型的容灾备份和恢复

问题背景在机器学习领域，模型的容灾备份和恢复是非常重要的，这是因为模型的训练通常需要耗费大量的时间和计算资源，一旦模型的文件损坏或丢失，就需要重新训练模型，这是非常低效的。因此，…

人工智能 2024年1月3日
0040
Jetson xavier NX / ubuntu18.04 /ros melodic/python3安裝使用cv_bridge

最開始是出現問題： from cv_bridge.boost.cv_bridge_boost import getCvType ImportError: dynamic modul…

人工智能 2023年6月10日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用ResNet-50实现图像分类任务

大家都在看