[零基础][最简单的教程]图像多分类问题的解决——基于resnet50的pytorch的实现

2023年7月2日下午4:03 • 人工智能 • 阅读 84

文章目录

前言
一、开始任务的前提条件
二、深度学习通用框架
三、修改代码前，使用者需要明确的问题
*
1.图片分成三个集，并放在正确的位置
2.明确你是几分类问题
3.明确你是使用的模型网络
四、图像分类通用pytorch框架——具体代码实现
*
一、输入处理模块
–
二、加载模型
三、定义损失函数、优化器
四、构建训练过程（训练、验证、测试）
–
总结

前言

文章的宗旨是使小白不懂原理也可以快速入手，傻瓜式操作。

整个文章的逻辑从所有深度学习的模型的通用框架开始介绍，再推广到用pytorch进行图像识别问题的模型基本框架。由于笔者也是初学深度学习与pytorch，因此仅以此篇，分享给同样初学pytorch，且对深度学习的一些原理不是很了解的朋友，帮助大家更快的上手一个图像分类项目
PS：如果读者觉得啰嗦，直接跳到代码部分进行复制就好了，那部分教你如何正确的复制与微调。

提示：以下是本篇文章正文内容，下面案例可供参考

一、开始任务的前提条件

1.装了anoconda与pytorch

具体教程可以搜B站UP主”深度之眼官方账号”的视频”pytorch安装指南！”

[零基础][最简单的教程]图像多分类问题的解决——基于resnet50的pytorch的实现

建议在安装前把原来机器上的python给卸载了，编译器直接用pycharm，这样就可以避免出现一堆莫名其妙的BUG，导致安装一天都失败
注1：如果浏览器下载慢的话，可以把链接复制到迅雷下载，迅雷会员便宜。
注2：用pycharm创建项目后，要给它的虚拟环境配置解释器，得用anoconda里的python.exe，所以你得记住anoconda的安装路径是在哪里，不然后期慢慢搜索会很折磨的
注3：如果你没有GUP，跟着教程安装的pytorch时，得下载cpu版本，而不是cuda版本

; 二、深度学习通用框架

本部分转载至知乎的一篇文章，强烈建议大家先看一眼，保证心中有数。
链接: 点击进入知乎原文.

所有的深度学习模型过程都可以形式化如下图：

1、输入处理模块 (X 输入数据，变成网络能够处理的Tensor类型)

2、模型构建模块 (主要负责从输入的数据，得到预测的y^, 这就是我们经常说的前向过程)

3、定义代价函数和优化器模块 (注意，前向过程只会得到模型预测的结果，并不会自动求导和更新，是由这个模块进行处理)

4、构建训练过程（迭代训练过程，就是上图表情包的训练迭代过程）

这几个模块分别与上图的数字标号1，2，3，4进行一一对应！

; 三、修改代码前，使用者需要明确的问题

本框架无须过多的理解深度学习的很多概念，只要你完成三个事情即可复制本代码，改一下直接使用。

1.图片分成三个集，并放在正确的位置

①图片分集
假设你有5个类，每个类有10张图片，你可以把每个类的图片都按照8:1：1的比例分成训练集，验证集和测试集，每个集中都装着5个文件夹，这5个文件夹名字为类名，装着这个类的图片。
训练集的作用是训练数据，验证集的作用是在每轮模型训练后，时时测试模型的性能
测试集是，当所有轮数都跑完之后，再测试，看看模型性能究竟如何
那么我分完之后，这三份图片应该放哪里呢？

②正确的位置
假设你的.py文件放在文件夹pythonProject里，那么你需要在文件夹A里面再创建一个文件夹，名为dataset 。然后你进入dataset，在dataset里面创建三个文件夹，分别为train，valid,test

（这步一定要做对，除了文件夹pythonProject的名字可以任意取，其余文件夹的名字必须和我一样）

; 2.明确你是几分类问题

如果你有5类，你就是5分类问题，到时候代码里只用改几处就可以了

3.明确你是使用的模型网络

本文使用的模型是resnet50，你可以根据你需要的网络自行修改，我会在代码里指出哪里需要修改

点击链接，里面提供了pytorch支持的模型网络
链接: 点击查看pytorch支持的网络.

四、图像分类通用pytorch框架——具体代码实现

跟深度学习的通用框架一样，分四步
一、输入处理模块
0.引入库
1.数据增强
2.加载数据集
二、模型构建模块
三、定义代价函数和优化器模块
四、构建训练过程
3.训练与验证
4.训练与验证结果的可视化展示
5.测试

一、输入处理模块

0.引入库

代码如下：

这个不要更改，直接复制就行


import torch
from torchvision import datasets, models, transforms
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
import time

import numpy as np
import matplotlib.pyplot as plt
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"
print("0导入库完成")

1.数据增强

代码如下（示例）：
这个也直接复制就行

image_transforms = {
    'train': transforms.Compose([
        transforms.RandomResizedCrop(size=256, scale=(0.8, 1.0)),
        transforms.RandomRotation(degrees=15),
        transforms.RandomHorizontalFlip(p=0.5),
        transforms.CenterCrop(size=224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406],
                             [0.229, 0.224, 0.225])
    ]),
    'valid': transforms.Compose([
        transforms.Resize(size=256),
        transforms.CenterCrop(size=224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406],
                             [0.229, 0.224, 0.225])
    ])
}
print("1.数据增强完成")

2.加载数据集

代码如下（示例）：
这里只有一个参数需要改，就是num_classes=5这一行
需要把5改成你自己的类数


dataset = 'dataset'
train_directory = os.path.join(dataset, 'train')
valid_directory = os.path.join(dataset, 'valid')
test_directory = os.path.join(dataset , 'test')
batch_size = 32
num_classes = 5

data = {
    'train': datasets.ImageFolder(root=train_directory, transform=image_transforms['train']),

    'valid': datasets.ImageFolder(root=valid_directory, transform=image_transforms['valid']),
    'test': datasets.ImageFolder(root=test_directory, transform=image_transforms['valid'])
}

train_data_size = len(data['train'])
valid_data_size = len(data['valid'])
test_data_size = len(data['test'])

train_data = DataLoader(data['train'], batch_size=batch_size, shuffle=True)

valid_data = DataLoader(data['valid'], batch_size=batch_size, shuffle=True)
test_data = DataLoader(data['test'], batch_size=batch_size, shuffle=True)

print("训练集数据量为：{}，验证集数据量为：{},验证集数据量为{}".format(train_data_size, valid_data_size,test_data_size))

print("2.加载数据完毕")

二、加载模型

代码如下（示例）：
这里有两处需要修改
1.nn.Linear(256,5)
其中这个5需要改成你的所需分类数
2.resnet50 = models.resnet50(pretrained=True)
可以把resnet50换成你想要的网络模型，如你要用alexnet，则改成：
alexnet = models.alexnet(pretrained=True)


resnet50 = models.resnet50(pretrained=True)

for param in resnet50.parameters():
    param.requires_grad = False

fc_inputs = resnet50.fc.in_features
resnet50.fc = nn.Sequential(
    nn.Linear(fc_inputs, 256),
    nn.ReLU(),
    nn.Dropout(0.4),
    nn.Linear(256, 5),
    nn.LogSoftmax(dim=1)
)

三、定义损失函数、优化器

代码如下（示例）：
复制即可


loss_func = nn.NLLLoss()
optimizer = optim.Adam(resnet50.parameters())
print("3.模型载入完毕")

四、构建训练过程（训练、验证、测试）

3.训练与验证

代码如下（示例）：
这个直接复制，这个代码段定义了一个训练与验证函数（把这个过程封装起来了）


def train_and_valid(model, loss_function, optimizer, epochs=25):
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    history = []
    best_acc = 0.0
    best_epoch = 0

    for epoch in range(epochs):
        epoch_start = time.time()
        print("Epoch: {}/{}".format(epoch + 1, epochs))

        model.train()

        train_loss = 0.0
        train_acc = 0.0
        valid_loss = 0.0
        valid_acc = 0.0

        for i, (inputs, labels) in enumerate(train_data):
            inputs = inputs.to(device)
            labels = labels.to(device)

            optimizer.zero_grad()

            outputs = model(inputs)

            loss = loss_function(outputs, labels)

            loss.backward()

            optimizer.step()

            train_loss += loss.item() * inputs.size(0)

            ret, predictions = torch.max(outputs.data, 1)
            correct_counts = predictions.eq(labels.data.view_as(predictions))

            acc = torch.mean(correct_counts.type(torch.FloatTensor))

            train_acc += acc.item() * inputs.size(0)

        with torch.no_grad():
            model.eval()

            for j, (inputs, labels) in enumerate(valid_data):
                inputs = inputs.to(device)
                labels = labels.to(device)

                outputs = model(inputs)

                loss = loss_function(outputs, labels)

                valid_loss += loss.item() * inputs.size(0)

                ret, predictions = torch.max(outputs.data, 1)

                correct_counts = predictions.eq(labels.data.view_as(predictions))

                acc = torch.mean(correct_counts.type(torch.FloatTensor))

                valid_acc += acc.item() * inputs.size(0)

        avg_train_loss = train_loss / train_data_size
        avg_train_acc = train_acc / train_data_size

        avg_valid_loss = valid_loss / valid_data_size
        avg_valid_acc = valid_acc / valid_data_size

        history.append([avg_train_loss, avg_valid_loss, avg_train_acc, avg_valid_acc])

        if best_acc < avg_valid_acc:
            best_acc = avg_valid_acc
            best_epoch = epoch + 1

        epoch_end = time.time()

        print(
            "Epoch: {:03d}, Training: Loss: {:.4f}, Accuracy: {:.4f}%, \n\t\tValidation: Loss: {:.4f}, Accuracy: {:.4f}%, Time: {:.4f}s".format(
                epoch + 1, avg_valid_loss, avg_train_acc * 100, avg_valid_loss, avg_valid_acc * 100,
                epoch_end - epoch_start
            ))
        print("Best Accuracy for validation : {:.4f} at epoch {:03d}".format(best_acc, best_epoch))
        torch.save(model.state_dict(), '.\dataset'+'_model_' + str(epoch + 1) + '.pt')

    return model, history

注1：这里是一个开关作用，当你想训练的时候，就把istrain的值设置为1。当整个代码全部执行完之后，如果你还想测试，但不想再训练，就把istrain的值设置为0
注2：nun_epochs=30的意思是我要训练30轮。这个值可以由你自己定。当你调试代码的时候，这个值可以设置为1或2，帮助你快速判断代码是否出错。

istrain=1
if istrain:
    num_epochs = 30
    trained_model, history = train_and_valid(resnet50, loss_func, optimizer, num_epochs)

这一步运行完之后，正确的话会在窗口看到以下的文字：

需要你记住这里的一个数字，最佳轮数。
对于我而言，这次准确率最佳的轮数是第18轮。所以我需要记住18这个数。对于你而言，这个数可能不是18，可能是1-30里的任何一个数，记住它，最佳轮数。（PS：大家应该看的懂英语吧）

4.训练与可视化展示

代码如下（示例）：
可以直接复制
ispicshow=1时会展示，等于0时不展示


ispicshow=0
if ispicshow:
    history = np.array(history)
    plt.plot(history[:, 0:2])
    plt.legend(['Tr Loss', 'Val Loss'])
    plt.xlabel('Epoch Number')
    plt.ylabel('Loss')
    plt.ylim(0, 1)
    plt.savefig(dataset + '_loss_curve.png')
    plt.show()

    plt.plot(history[:, 2:4])
    plt.legend(['Tr Accuracy', 'Val Accuracy'])
    plt.xlabel('Epoch Number')
    plt.ylabel('Accuracy')
    plt.ylim(0, 1)
    plt.savefig(dataset + '_accuracy_curve.png')
    plt.show()

5.测试

代码如下（示例）：

首先定义了一个测试函数（封装了测试过程）
在这个测试函数的第一行，即
resnet50.load_state_dict(torch.load(‘.\dataset’ + ‘ model‘ + ’18’ + ‘.pt’))这行
这里面有个数字，18.他就是刚才要你记住的最佳轮数。把它换成你自己机器运行后显示的最佳轮数即可


def test(model,loss_function):
    resnet50.load_state_dict(torch.load('.\dataset' + '_model_' + '18' + '.pt'))
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    test_loss = 0.0
    test_acc = 0.0
    test_start = time.time()
    with torch.no_grad():
        model.eval()
    for j, (inputs, labels) in enumerate(test_data):
        inputs = inputs.to(device)
        labels = labels.to(device)

        outputs = model(inputs)

        loss = loss_function(outputs, labels)

        test_loss += loss.item() * inputs.size(0)

        ret, predictions = torch.max(outputs.data, 1)

        correct_counts = predictions.eq(labels.data.view_as(predictions))

        acc = torch.mean(correct_counts.type(torch.FloatTensor))

        test_acc += acc.item() * inputs.size(0)

    avg_test_loss = test_loss / test_data_size
    avg_test_acc = test_acc / test_data_size
    test_end = time.time()

    print(
        "test: Loss: {:.4f}, Accuracy: {:.4f}%, Time: {:.4f}s".format(
            avg_test_loss, avg_test_acc * 100,
            test_end - test_start
        ))

istest=1表示可以进行训练，等于0表示不能
如果你用的模型不是resnet，则你需要把 test(resnet50,loss_func)中的resnet50改成你自己选择的模型网络。例如，如果你最开始选的是用alexnet，则需要改成：test(alexnet,loss_func)

istest=1
if istest:
    test(resnet50,loss_func)

至此，傻瓜式教学就结束了，不懂原理的同学可以根据自己的需要改改就能用了

总结

本文其实是对另一个作者的代码理解后的重新组织，帮助更多的小白快速入手。相对于原文章（点击阅读原文.），本文封装了更多的细节，只提供了几个对开发者或使用者修改的接口，一定程度上降低了图像分类的门槛。

如果大家想继续深入学习，而不是玩玩而已的话，还是需要先慢慢打好基础再来进入实战。

Original: https://blog.csdn.net/Gambler_Yushen/article/details/114855882
Author: Gambler_Yushen
Title: [零基础][最简单的教程]图像多分类问题的解决——基于resnet50的pytorch的实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/665764/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习——K近邻算法及乳腺癌检测分类

一、引言 KNN 可用于分类和回归，用于分类时是多分类方法。注意:由于此方法根据预测点近邻的各类点的个数多少来确定该预测点的类别，因此原始类别数据不均衡，将严重影响最终分类效果。…

人工智能 2023年7月1日
0082
【图神经网络】图分类学习研究综述[1]：图分类问题定义与基于图相似度的图分类

基于GNN的图分类学习研究综述[1]：图分类问题定义与基于图相似度的图分类论文阅读：基于GNN的图分类学习研究综述 1. 图分类问题定义及挑战 * 1.1 图分类问题与符号定义 …

人工智能 2023年7月2日
0078
将DataFrame中每条记录以字典表示和将其指定两列转成字典

将DataFrame映射成字典形式在我们日常工作学习中难免遇到将DataFrame映射成字典的时候，下面就让我们来看看怎么操作。假设我们现在有一些学生的数据，其中有姓名，年纪，…

人工智能 2023年7月8日
0074
OpenCV-Python中的函数cv.imread()读取到的图像的数据存储结构是怎样的？

OpenCV-Python中的函数cv.imread()读取到的图像的数据存储结构是怎样的？用一个例子实测一下就知道了。测试代码如下： import numpy as np im…

人工智能 2023年5月26日
0079
【重要】ECG identification

Robust Deep Identification using ECG and Multimodal Biometrics for Industrial Internet of …

人工智能 2023年7月1日
0094
【yolov6系列一】深度解析网络架构

在yolov5霸屏计算机视觉领域很久时，六月处美团开源了yolov6，并号称在精度和速度上均超越其他同量级的计算机视觉模型，刚刚瞅了一眼，star已经超过2.8k,脑子里莫名冒出一…

人工智能 2023年6月16日
0089
利用python基础神经网络来实现鸢尾花的分类（AI人工智能，tensorflow,插入tensorflow图片）

配置环境在开始正式学习tensorflow时，我们需要先配置好相应的环境。如果大家电脑上装有Anaconda我们可以直接在pycharm中安装tensorflow,pandas,…

人工智能 2023年7月13日
0053
关于 train loss、val loss训练时遇到的问题

训练集是用于模型的训练的样本集合，确定模型的权重参数。训练集的数量随着模型的复杂度要增多。反向传播确定最优参数。验证集用于验证模型的评估、模型的选择、参数的调整。选择模型、…

人工智能 2023年6月17日
0092
地理加权回归_利用python实现地理加权回归(GWR)与网约车订单数据挖掘

Hello 艾瑞巴蒂！今天为大家带来的是本公众号第二篇文章，读完本文你将学会：利用python进行网约车订单数据时空分布特性探索性挖掘利用python进行空间自相关的检验并构…

人工智能 2023年6月18日
0071
【DL】第11 章：文本深度学习

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月17日
0099
OpenCV-Python实战（21）——OpenCV人脸检测项目在Web端的部署

OpenCV-Python实战（21）——OpenCV人脸检测项目在Web端的部署 * – 0. 前言 – 1. OpenCV 人脸检测项目在 Web 端的…

人工智能 2023年6月18日
0059
YOLOv5的Neck端设计

YOLOv5的Neck端设计在上一篇《YOLOv5的Backbone设计》中，我们从yolov5的backbone配置文件出发，细致讲解了backbone的网络架构及各模块的源码…

人工智能 2023年7月20日
00131
计算机视觉方面的三大顶级会议：ICCV,CVPR,ECCV（统称ICE）

ICCV/CVPR/ECCV发论文的难度，相当于顶级SCI期刊和目前国内评价学术水平是以在学术期刊发表SCI论文的情况不一样，大家要注意：在计算机视觉方向，会议论文> …

人工智能 2023年7月30日
0061
origin函数绘图_如何利用Origin进行多元线性回归、指数拟合和非线性曲面拟合？…

推荐阅读免费课程30节丨从入门到高手，用Origin处理CV、XRD、XPS、FTIR、Raman、TGA、DSC数据【免费】3节课学会24张酷炫美图 — 史上最强Origin…

人工智能 2023年6月18日
00133
【学习笔记-吴恩达】目标检测（Object Detection）

文章目录一、基本概念 * 1.1 Classification with localization 二、Landmark Detection 三、Object Detection…

人工智能 2023年7月10日
0095
4-03-1 Pandas – 折线图、柱状图、直方图、箱型图

4.3 Pandas 内置可视化方法 Pandas 本身也提供几个简单的数据可视化图形，可以完成简单的变化－折线图、等级－柱状图、分布－直方图、箱型图、相互关系－散点图、分群－安德…

人工智能 2023年7月7日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31