使用ResNet50对QuickDraw数据集做图像分类

2023年7月2日上午3:09 • 人工智能 • 阅读 80

前言

quickdraw数据集是序列数据集，包含画画的动作等信息。我将quickdraw数据集转换成黑底白字的png图片，对其做多分类。本文使用pytorch，和预训练过的resnet50深度神经网络。

转换方法导航：将QuickDraw数据集ndjson转为png图片_WonderKing’blog-CSDN博客Quick Draw Dataset 是一个包含345 个类别的每类1000张图片。因为我需要对简笔画之类的数据集做分类，但是我手上的数据集太小，就需要大量的数据集做个大模型，然后在微调。使用ResNet50对QuickDraw数据集做图像分类 https://blog.csdn.net/qq_42391248/article/details/122112170?spm=1001.2014.3001.5501 ;

导包

from glob import glob
import os
import numpy as np
import matplotlib.pyplot as plt
import shutil
from torchvision import transforms
from torchvision import models
import torch
from torch.autograd import Variable
import torch.nn as nn
from torch.optim import lr_scheduler
from torch import optim
from torchvision.datasets import ImageFolder
from torchvision.utils import make_grid
import time
%matplotlib inline

数据集处理

将数据集处理成三个文件夹：train,valid,test
每个文件夹下面有n个分类文件夹，每个分类文件夹下面是对应的图片。

读取文件夹内的文件
path = 'data/image345/'
files = glob.glob(os.path.join(path,'*/*.png'))

#创建保存验证图片集的valid/train/test的目录
path2 = 'data/'
os.mkdir(path2 )
os.mkdir(os.path.join(path2 ,'valid'))
os.mkdir(os.path.join(path2 ,'train'))
os.mkdir(os.path.join(path2 ,'test'))

获取所有标签类别
fileslist = [f for f in os.listdir(path)]

#使用标签名称创建目录
for t in ['train','valid','test']:
    for folder in fileslist:
        os.mkdir(os.path.join(path2,t,folder))

test:valid:train  1:1:8
for folder in fileslist:
    path = 'data/'
    path = os.path.join(path,folder)
    # 获取到该文件夹下面的200张图片
    files = glob.glob(os.path.join(path,'*.png'))
    images_num = len(files)
    #创建可用于创建验证数据集的混合索引
    shuffle = np.random.permutation(images_num)

    # 将图片的一小部分子集复制到valid文件夹
    for i in shuffle[:100]:
        image = files[i].split('/')[-1]
        os.rename(files[i],os.path.join('data/valid',folder,image))
    # 将图片的一小部分子集复制到train文件夹
    for i in shuffle[100:900]:
        image = files[i].split('/')[-1]
        os.rename(files[i],os.path.join('data/train',folder,image))
    for i in shuffle[900:]:
        image = files[i].split('/')[-1]
        os.rename(files[i],os.path.join('data/test',folder,image))

获取数据

batchsize设置为32（因为我的gpu只要8G，在大就爆栈了，留下了穷逼的眼泪！），图片裁剪为224*224

if torch.cuda.is_available():
    is_cuda = True
simple_transform = transforms.Compose([transforms.Resize((224,224))
                                       ,transforms.ToTensor()
                                       ,transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
train = ImageFolder('data/train',simple_transform)
valid = ImageFolder('data/valid',simple_transform)
test = ImageFolder('data/test',simple_transform)

train_data_gen = torch.utils.data.DataLoader(train,shuffle=True,batch_size=32,num_workers=3)
valid_data_gen = torch.utils.data.DataLoader(valid,batch_size=32,num_workers=3)
test_data_gen = torch.utils.data.DataLoader(test ,batch_size=32,num_workers=3)

dataset_sizes = {'train':len(train_data_gen.dataset),'valid':len(valid_data_gen.dataset),'test':len(test_data_gen )}
dataloaders = {'train':train_data_gen,'valid':valid_data_gen,'test':test_data_gen }

深度神经网络

model_ft = models.resnet50(pretrained=True)
num_ftrs = model_ft.fc.in_features
model_ft.fc = nn.Linear(num_ftrs, 345)

超参数

&#x4EA4;&#x53C9;&#x71B5;&#x635F;&#x5931;&#x51FD;&#x6570;
criterion = nn.CrossEntropyLoss()
&#x4F18;&#x5316;&#x5668;
optimizer_ft = optim.SGD(model_ft.parameters(), lr=0.01, momentum=0.9)
&#x81EA;&#x52A8;&#x8C03;&#x6574;&#x5B66;&#x4E60;&#x7387;
exp_lr_scheduler = lr_scheduler.StepLR(optimizer_ft, step_size=10, gamma=0.1)

训练函数

def train_model(model, criterion, optimizer, scheduler, device, num_epochs=5):

    model.to(device)
    print('training on', device)
    since = time.time()

    best_model_wts = model.state_dict()
    best_acc = 0.0

    for epoch in range(num_epochs):
        for phase in ['train', 'valid']:

            s = time.time()

            if phase == 'train':
                scheduler.step()
                model.train()
            else:
                model.eval()

            running_loss = 0.0
            running_corrects = 0

            # Iterate over data.

            for data in dataloaders[phase]:
                # get the inputs
                inputs, labels = data

                # wrap them in Variable
                if torch.cuda.is_available():
                    inputs = Variable(inputs.to(device))
                    labels = Variable(labels.to(device))
                else:
                    inputs, labels = Variable(inputs), Variable(labels)

                if phase == 'train':
                    optimizer.zero_grad()

                # forward
                outputs = model(inputs)
                _, preds = torch.max(outputs.data, 1)
                loss = criterion(outputs, labels)

                # backward + optimize only if in training phase
                if phase == 'train':
                    optimizer.zero_grad()
                    loss.backward()
                    optimizer.step()

                # statistics
                running_loss += loss.data
                running_corrects += torch.sum(preds == labels.data)

            epoch_loss = running_loss / dataset_sizes[phase]
            epoch_acc = running_corrects / dataset_sizes[phase]

            if phase == 'valid':
                val_losses.append(epoch_loss)
                val_accuracy.append(epoch_acc)
            if phase == 'train':
                train_lossed.append(epoch_loss)
                train_accuracy.append(epoch_acc)

            print('Epoch {}/{} - {} Loss: {:.4f}  Acc: {:.4f}  Time:{:.1f}s'.format(
                epoch + 1, num_epochs, phase, epoch_loss, epoch_acc,
                time.time() - s))

            # deep copy the model
            if phase == 'valid' and epoch_acc > best_acc:
                best_acc = epoch_acc
                best_model_wts = model.state_dict()

        if phase == 'train':
            scheduler.step()

        print()

    time_elapsed = time.time() - since
    print('Training complete in {:.0f}m {:.0f}s'.format(
        time_elapsed // 60, time_elapsed % 60))
    print('Best val Acc: {:4f}'.format(best_acc))

    # load best model weights
    model.load_state_dict(best_model_wts)
    return model

选择GPU函数

def try_gpu(i=0):
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

开始训练

train_lossed, train_accuracy = [], []
val_losses, val_accuracy = [], []
model_ft = train_model(model_ft,
criterion, optimizer_ft, exp_lr_scheduler,  try_gpu(0), num_epochs=10)

画图

plt.plot(range(1, len(train_lossed)+1),train_lossed, 'b', label='training loss')
plt.plot(range(1, len(val_losses)+1), val_losses, 'r', label='val loss')
plt.legend()

plt.plot(range(1,len(train_accuracy)+1),train_accuracy,'b--',label = 'train accuracy')
plt.plot(range(1,len(val_accuracy)+1),val_accuracy,'r--',label = 'val accuracy')
plt.legend()

测试

def data_test(model, criterion, device):
    model.to(device)
    print('Testing on', device)
    s = time.time()
    model.eval()

    running_loss = 0.0
    running_corrects = 0

    # Iterate over data.

    phase = "test"
    for data in dataloaders["test"]:
        # get the inputs
        inputs, labels = data

        # wrap them in Variable
        if torch.cuda.is_available():
            inputs = Variable(inputs.to(device))
            labels = Variable(labels.to(device))
        else:
            inputs, labels = Variable(inputs), Variable(labels)

        # forward
        outputs = model(inputs)
        _, preds = torch.max(outputs.data, 1)
        loss = criterion(outputs, labels)

        # backward + optimize only if in training phase

        # statistics
        running_loss += loss.data
        running_corrects += torch.sum(preds == labels.data)

    epoch_loss = running_loss / dataset_sizes[phase]
    epoch_acc = running_corrects / dataset_sizes[phase]

    print('Loss: {:.4f}  Acc: {:.4f}  Time:{:.1f}s'.format(
        epoch_loss, epoch_acc,
        time.time() - s))

model_ft = train_model(model_ft, criterion,  try_gpu(1))

保存模型

torch.save(model_ft, 'data/models/net50.pth')

分析

数据集为345类，每类取了200张图片。最终把测试精度训练到70左右，还是有提升空间。

提升策略：
1、优化数据集，每类取1000张图片。
2、做数据增强。加噪音，随机翻转，变颜色，图片叠加等操作
3、优化深度神经网络resnet50，可以使用更深的网络，比如resnet101.

Original: https://blog.csdn.net/qq_42391248/article/details/122113643
Author: Wonder-King
Title: 使用ResNet50对QuickDraw数据集做图像分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664589/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之–聚类算法

聚类和分类区别聚类和分类的本质区别就是：聚类是无监督的，分类是有监督的；聚类主要是”物以类聚”，通过相似性把相似元素聚集在一起，它没有标签；而分类通过标签…

人工智能 2023年5月31日
0068
ThingsBoard 3.1.1版本在window本地运行之TB-Gateway ODBC数据上传(四)

目录 1、前言 2、Thingsboard Gateway 1.tb-gateway的概念 2.tb-gateway的配置 3.odbc连接器配置 3、ODBC的配置 1.安装wi…

人工智能 2023年7月31日
0059
python opencv实现绘制图像的灰度直方图

思路：先把图片转换为灰度图,然后根据灰度值的分布来绘制直方图使用方法： matplotlib库，hist函数，revel()函数 hist函数功能:根据数据源和像素级绘制直方图 …

人工智能 2023年6月18日
0071
激光SLAM论文简单导读–LOAM、VLOAM、LeGO-LOAM、LIO-SAM、LVI-SAM、LIMO、LIC-FUSION、TVL-SLAM、R2LIVE、R3LIVE

激光SLAM论文简单导读–LOAM、VLOAM、LeGO-LOAM、LIO-SAM、LVI-SAM、LIMO、LIC-FUSION、TVL-SLAM、R2LIVE、R3…

人工智能 2023年5月26日
00115
百度飞桨：ERNIE 3.0 、通用信息抽取 UIE、paddleNLP的安装使用[一]

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：[NLP专栏简介：数据增强、智能…

人工智能 2023年7月28日
0085
既然学不死就往死里学

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月24日
0077
2021年研究生数学建模竞赛优秀论文汇总

竞赛题目一般来源于工程与管理等领域的实际问题，并经过提炼加工，不要求参赛者预先掌握深入的专门知识。面向全国研究生培养单位和企事业单位广泛征集竞赛命题，由专家委员会讨论最终确定。 …

人工智能 2023年7月29日
0046
Faster R-CNN代码详解标注数据形状

Faster R-CNN代码实战–潘登同学的深度学习笔记文章目录 * – Faster R-CNN代码实战–潘登同学的深度学习笔记* 数据集介绍* 数据处…

人工智能 2023年7月9日
00100
解决 nvcc: command not found

1.nvcc nvcc 是The main wrapper for the NVIDIA CUDA Compiler suite. Used to compile and link…

人工智能 2023年7月26日
0066
pytorch中间层输出方法

本文想要解决的是 pytorch中间层的输出问题，有时我们训练神经网络时会设定回归或者分类作为目标，但在测试阶段实际需要的只是用神经网络提取输入的表征，因此需要获得网络的中间层输出…

人工智能 2023年6月15日
0076
谈谈机器学习AI模型测试与评估方法分析

随着数字化转型与人工智能发展，AI应用软件层出不穷，人们虽然理解人工智能趋势，但是，企业往往很难接受这样AI应用软件，其中质疑点主要有：预测或识别的准确性模型相关性鲁棒性安…

人工智能 2023年6月26日
0073
Hive笔记

Hive 基本概念 1.1 什么是 Hive 1） hive 简介 Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoo…

人工智能 2023年6月28日
0054
NLP几种常用的对抗训练方法

NLP几种常用的对抗训练方法对抗训练本质是为了提高模型的鲁棒性，一般情况下在传统训练的基础上，添加了对抗训练是可以进一步提升效果的，在比赛打榜、调参时是非常重要的一个trick。…

人工智能 2023年5月27日
0089
SpringBoot电商项目前后端界面搭建

目录一、SpringBoot项目简介 1、技术点介绍 2、数据表介绍二、构建SpringBoot项目 1.创建SpringBoot项目并配置POM 2.配置applicatio…

人工智能 2023年6月28日
0070
Python他不香吗？四、五行代码就能搞定几百份表格的拆分！

作者: 锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容 当你要重&…

人工智能 2023年7月9日
0058
【编程题】【Scratch三级】2021.12 数星星

数星星 Goblin有个很厉害的魔法：他一挥手就可以点亮夜空中五彩斑斓的星星灯。 ; 1. 准备工作（1）删除小猫角色，添加”Goblin”角色，并删除G…

人工智能 2023年6月30日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用ResNet50对QuickDraw数据集做图像分类

大家都在看