Resnet实现CIFAR-10图像分类 —— Mindspore实践

2023年6月25日上午9:30 • 人工智能 • 阅读 66

计算机视觉是当前深度学习研究最广泛、落地最成熟的技术领域，在手机拍照、智能安防、自动驾驶等场景有广泛应用。从2012年AlexNet在ImageNet比赛夺冠以来，深度学习深刻推动了计算机视觉领域的发展，当前最先进的计算机视觉算法几乎都是深度学习相关的。深度神经网络可以逐层提取图像特征，并保持局部不变性，被广泛应用于分类、检测、分割、跟踪、检索、识别、提升、重建等视觉任务中。结合图像分类任务，了解MindSpore如何应用于计算机视觉场景，如何训练模型，得出一个性能较优的模型。

CIFAR-10 是一个用于识别普适物体的小型数据集。一共包含 10 个类别的 RGB 彩色图片。图片的尺寸为 32×32 ，数据集中一共有 50000 张训练图片和 10000 张测试图片。
下面这幅图列举了10各类，每一类展示了随机的10张图片：

与 MNIST 数据集中目比， CIFAR-10 具有以下不同点：
• CIFAR-10 是 3 通道的彩色 RGB 图像，而 MNIST 是灰度图像。
• CIFAR-10 的图片尺寸为 32×32，而 MNIST 的图片尺寸为 28×28，比 MNIST 稍大。
• 相比于手写字符， CIFAR-10 含有的是现实世界中真实的物体，不仅噪声很大，而且物体的比例、特征都不尽相同，这为识别带来很大困难。直接的线性模型如 Softmax 在 CIFAR-10 上表现得很差。

图像分类是最基础的计算机视觉应用，属于有监督学习类别。给定一张数字图像，判断图像所属的类别，如猫、狗、飞机、汽车等等。用函数来表示这个过程如下：

定义的分类函数，以图片数据 image为输入，通过 model方法对 image进行分类，最后返回分类结果。选择合适的 model是关键。这里的 model一般指的是深度卷积神经网络，如AlexNet、VGG、GoogLeNet、ResNet等等。
下面按照MindSpore的训练数据模型的正常步骤进行，当使用到MindSpore或者图像分类操作时，会增加相应的说明，整体流程如下：

数据集的准备，这里使用的是CIFAR-10数据集。
构建一个卷积神经网络，这里使用ResNet-50网络。
定义损失函数和优化器。
调用Model高阶API进行训练和保存模型文件。
进行模型精度验证。

训练数据集下载

import mindspore
print(mindspore.__version__)

数据集准备

!wget -N https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/datasets/cifar10.zip
!unzip -o cifar10.zip -d ./datasets
!tree ./datasets/cifar10

数据集处理对于训练非常重要，好的数据集可以有效提高训练精度和效率。在加载数据集前，通常会对数据集进行一些处理。这里用到了数据增强，数据混洗和批处理。

数据增强主要是对数据进行归一化和丰富数据样本数量。常见的数据增强方式包括裁剪、翻转、色彩变化等等。MindSpore通过调用 map方法在图片上执行增强操作。数据混洗和批处理主要是通过数据混洗 shuffle随机打乱数据的顺序，并按 batch读取数据，进行模型训练。

构建 create_dataset函数，来创建数据集。通过设置 resize_height、 resize_width、 rescale、 shift参数，定义 map以及在图片上运用 map实现数据增强。

import mindspore.nn as nn
from mindspore import dtype as mstype
import mindspore.dataset as ds
import mindspore.dataset.vision.c_transforms as C
import mindspore.dataset.transforms.c_transforms as C2
from mindspore import context
import numpy as np
import matplotlib.pyplot as plt

context.set_context(mode=context.GRAPH_MODE, device_target="GPU")

def create_dataset(data_home, repeat_num=1, batch_size=32, do_train=True, device_target="GPU"):
"""
    create data for next use such as training or inferring
"""

    cifar_ds = ds.Cifar10Dataset(data_home,num_parallel_workers=8, shuffle=True)

    c_trans = []
    if do_train:
        c_trans += [
            C.RandomCrop((32, 32), (4, 4, 4, 4)),
            C.RandomHorizontalFlip(prob=0.5)
        ]

    c_trans += [
        C.Resize((224, 224)),
        C.Rescale(1.0 / 255.0, 0.0),
        C.Normalize([0.4914, 0.4822, 0.4465], [0.2023, 0.1994, 0.2010]),
        C.HWC2CHW()
    ]

    type_cast_op = C2.TypeCast(mstype.int32)

    cifar_ds = cifar_ds.map(operations=type_cast_op, input_columns="label", num_parallel_workers=8)
    cifar_ds = cifar_ds.map(operations=c_trans, input_columns="image", num_parallel_workers=8)

    cifar_ds = cifar_ds.batch(batch_size, drop_remainder=True)
    cifar_ds = cifar_ds.repeat(repeat_num)

    return cifar_ds

ds_train_path = "./datasets/cifar10/train/"
dataset_show = create_dataset(ds_train_path)
with open(ds_train_path+"batches.meta.txt","r",encoding="utf-8") as f:
    all_name = [name.replace("\n","") for name in f.readlines()]

iterator_show= dataset_show.create_dict_iterator()
dict_data = next(iterator_show)
images = dict_data["image"].asnumpy()
labels = dict_data["label"].asnumpy()
count = 1
%matplotlib inline
for i in images:
    plt.subplot(4, 8, count)
    # Images[0].shape is (3,224,224).We need transpose as (224,224,3) for using in plt.show().

    picture_show = np.transpose(i,(1,2,0))
    picture_show = picture_show/np.amax(picture_show)
    picture_show = np.clip(picture_show, 0, 1)
    plt.title(all_name[labels[count-1]])
    picture_show = np.array(picture_show,np.float32)
    plt.imshow(picture_show)
    count += 1
    plt.axis("off")

print("The dataset size is:", dataset_show.get_dataset_size())
print("The batch tensor is:",images.shape)
plt.show()

数据集生成后，选取一个 batch的图像进行可视化查看，经过数据增强后，原数据集变成了每个batch张量为，共计1572个batch的新数据集。

定义卷积神经网络

卷积神经网络已经是图像分类任务的标准算法了。卷积神经网络采用分层的结构对图片进行特征提取，由一系列的网络层堆叠而成，比如卷积层、池化层、激活层等等。 ResNet-50通常是较好的选择。首先，它足够深，常见的有34层，50层，101层。通常层次越深，表征能力越强，分类准确率越高。其次，可学习，采用了残差结构，通过shortcut连接把低层直接跟高层相连，解决了反向传播过程中因为网络太深造成的梯度消失问题。此外，ResNet-50网络的性能很好，既表现为识别的准确率，也包括它本身模型的大小和参数量。

下载构建好的resnet50网络源码文件。

!wget -N https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/source-codes/resnet.py

下载下来的 resnet.py在当前目录，可以使用 import方法将resnet50网络导出。

from resnet import resnet50

net = resnet50(batch_size=32, num_classes=10)

定义损失函数和优化器

接下来需要定义损失函数（Loss）和优化器（Optimizer）。损失函数是深度学习的训练目标，也叫目标函数，可以理解为神经网络的输出（Logits）和标签(Labels)之间的距离，是一个标量数据。常见的损失函数包括均方误差、L2损失、Hinge损失、交叉熵等等。图像分类应用通常采用交叉熵损失（CrossEntropy）。优化器用于神经网络求解（训练）。由于神经网络参数规模庞大，无法直接求解，因而深度学习中采用随机梯度下降算法（SGD）及其改进算法进行求解。MindSpore封装了常见的优化器，如SGD、ADAM、Momemtum等等。本例采用Momentum优化器，通常需要设定两个参数，动量（moment）和权重衰减项（weight decay）。

通过调用MindSpore中的API： Momentum和 SoftmaxCrossEntropyWithLogits，设置损失函数和优化器的参数。

import mindspore.nn as nn
from mindspore.nn import SoftmaxCrossEntropyWithLogits

ls = SoftmaxCrossEntropyWithLogits(sparse=True, reduction="mean")
opt = nn.Momentum(filter(lambda x: x.requires_grad, net.get_parameters()), 0.01, 0.9)

调用Model高阶API进行训练和保存模型文件

完成数据预处理、网络定义、损失函数和优化器定义之后，就可以进行模型训练了。模型训练包含两层迭代，数据集的多轮迭代（epoch）和一轮数据集内按分组（batch）大小进行的单步迭代。其中，单步迭代指的是按分组从数据集中抽取数据，输入到网络中计算得到损失函数，然后通过优化器计算和更新训练参数的梯度。

为了简化训练过程，MindSpore封装了Model高阶接口。用户输入网络、损失函数和优化器完成Model的初始化，然后调用 train接口进行训练， train接口参数包括迭代次数 epoch和数据集 dataset。

模型保存是对训练参数进行持久化的过程。 Model类中通过回调函数的方式进行模型保存，如下面代码所示。用户通过 CheckpointConfig设置回调函数的参数，其中， save_checkpoint_steps指每经过固定的单步迭代次数保存一次模型， keep_checkpoint_max指最多保存的模型个数。

本次选择 epoch_size为10，一共迭代了10次，大约耗时25分钟，得到如下的运行结果。可以自行设置不同的 epoch_size，生成不同的模型，在下面的验证部分查看模型精确度。

from mindspore.train.callback import ModelCheckpoint, CheckpointConfig, LossMonitor
from mindspore import load_checkpoint, load_param_into_net
import os
from mindspore import Model

model = Model(net, loss_fn=ls, optimizer=opt, metrics={'acc'})
As for train, users could use model.train

epoch_size = 10
ds_train_path = "./datasets/cifar10/train/"
model_path = "./models/ckpt/mindspore_vision_application/"
os.system('rm -f {0}*.ckpt {0}*.meta {0}*.pb'.format(model_path))

dataset = create_dataset(ds_train_path )
batch_num = dataset.get_dataset_size()
config_ck = CheckpointConfig(save_checkpoint_steps=batch_num, keep_checkpoint_max=35)
ckpoint_cb = ModelCheckpoint(prefix="train_resnet_cifar10", directory=model_path, config=config_ck)
loss_cb = LossMonitor(142)
model.train(epoch_size, dataset, callbacks=[ckpoint_cb, loss_cb])

epoch: 1 step: 1562, loss is 1.2250829
epoch: 2 step: 1562, loss is 0.948782
epoch: 3 step: 1562, loss is 1.02575
epoch: 4 step: 1562, loss is 0.8370316
epoch: 5 step: 1562, loss is 0.65224147
epoch: 6 step: 1562, loss is 0.5031056
epoch: 7 step: 1562, loss is 0.39631012
epoch: 8 step: 1562, loss is 0.21934134
epoch: 9 step: 1562, loss is 0.35878238
epoch: 10 step: 1562, loss is 0.34452274

查询训练过程中，保存好的模型。

!tree ./models/ckpt/mindspore_vision_application/

每1562个step保存一次模型权重参数 .ckpt文件，一共保存了10个，另外 .meta文件保存模型的计算图信息。

进行模型精度验证

调用 model.eval得到最终精度超过0.80，准确度较高，验证得出模型是性能较优的。

As for evaluation, users could use model.eval
ds_eval_path = "./datasets/cifar10/test/"
eval_dataset = create_dataset(ds_eval_path, do_train=False)
res = model.eval(eval_dataset)
print("result: ", res)

result:  {'acc': 0.8165064102564102}

Original: https://blog.csdn.net/m0_54776464/article/details/126346261
Author: 学习历险记
Title: Resnet实现CIFAR-10图像分类 —— Mindspore实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650649/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

excel求回归直线方程的公式_如何用excel快速求线性回归方程？

通常求解线性回归方程，在Excel中使用的方法为规划求解，今天我从另外两个思路给你讲一讲如何求解线性回归方式给。先来看一下什么是线性回归方程：线性回归方程是利用数理统计中的回归分…

人工智能 2023年6月18日
00100
无监督学习算法中常见的评估指标有哪些

问题解答：无监督学习算法中常见的评估指标无监督学习算法是机器学习领域的一类重要算法，它主要用于从未标记的数据中发现模式、结构或潜在关系。评估指标在无监督学习中起着非常关键的作用，…

人工智能 2024年1月5日
0041
【预测模型】基于麻雀算法改进广义回归神经网络(GRNN)实现数据预测matlab代码

1 简介为实现精准施肥”减施增效”的数字化农业施肥技术,本文基于并运用了麻雀搜索算法,对广义回归神经网络(GRNN)进行了结合与改进,并构建作物广义回归神…

人工智能 2023年6月17日
00114
制作数据集—labelImg和labelme

labelImg 首先安装labelImg在Ancconda环境中 pip install labelImg即可然后直接在conda环境中运行 labelImg即可打开软件、软件非…

人工智能 2023年7月3日
00110
Swin Transformer详解

目录 * – 1. Swin Transformer整体架构 – + (a) Architecture + (b) Two Successive Swin …

人工智能 2023年6月24日
0090
论文笔记《PYRAFORMER: 用于长期时间序列建模和预测的低复杂度金字塔注意力》

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0059
无监督学习中的降维算法有哪些？它们的作用是什么

降维算法在无监督学习中的作用在无监督学习中，降维算法用于减少数据集中特征的维度，以便进行数据的可视化、压缩、聚类等操作。降维可以帮助我们发现数据中的潜在结构和模式，提高模型的效率…

人工智能 2024年1月5日
0052
案例 | 客户关系管理数字化升级，侨鑫集团如何做到“心中有数”？

客户行为敏锐洞察，高净值人群精细化管理作为第一波被批准进入中国市场的外资企业，侨鑫集团一直致力于成为”理想生活的引领者”，为了达成这一目标，侨鑫努力构建&…

人工智能 2023年7月18日
0073
用神经网络进行回归预测 weight_decay为异常值（大于1 的值）模型效果好的原因解析

weight_decay越大越好的原因研究发生的问题特此记录之前在用神经网络来做一个回归问题，回归的数值范围是0~1之间。然后进行网格搜参（搜索最好的weight_decay和…

人工智能 2023年7月13日
0048
FairMOT配置（VS2019+Win10+CUDA11.0）

配置环境： Win10 VS2019 CUDA11.0 Pytorch1.7 配置步骤： 1、下载FairMOT： git clone –recursive https://gi…

人工智能 2023年7月22日
0074
命名实体识别（NER）算法

文章目录标注方案问题建模评价指标常用的NER方法 * 深度学习方法（in survey） – 输入的分布式表示上下文编码解码器 + 先说MLP+softma…

人工智能 2023年5月27日
0080
保研笔记八——YOLOV5项目复习

学习转载自：睿智的目标检测56——Pytorch搭建YoloV5目标检测平台_Bubbliiiing的博客-CSDN博客_睿智yolo Pytorch 搭建自己的YoloV5目标检…

人工智能 2023年6月24日
00107
深度学习中一些注意力机制的介绍以及pytorch代码实现

文章目录前言注意力机制 * 软注意力机制 – 代码实现硬注意力机制多头注意力机制 – 代码实现参考前言因为最近看论文发现同一个模型用了不同的注…

人工智能 2023年7月26日
0061
DataFrame操作获取数据数量，维度，长度，各列值的个数，描述信息

pd.options.display.max_rows = 8 movie = pd.read_csv(‘movie.csv’) 打印行数和列数 movie.shape #(100…

人工智能 2023年7月7日
00113
自动驾驶中的坐标系

自动驾驶中的坐标系 * – 0.引言 – 1.相机传感器坐标系 – 2.激光雷达坐标系 – 3.车体坐标系 – 4.世界…

人工智能 2023年6月1日
00112
沦为“取数工具”的那些日子，我懂得了这些道理

场景一：入职第一天，领导给了张50M的EXCEL说：这里有100多万条客户信息，来个大数据分析下。震惊！场景二：千辛万苦整理的数据，发现数据非常真实，75%的记录缺失，10%记录出…

人工智能 2023年7月16日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31