MAE源代码理解 part2 ：预训练调试

2023年7月26日下午8:16 • 人工智能 • 阅读 199

1 事先准备

二调试

用MAE预训练的模型用于自己下游的分类

part1 ：

MAE源代码理解 part1 ：调试理解法_YI_SHU_JIA的博客-CSDN博客

git官方链接： GitHub – facebookresearch/mae: PyTorch implementation of MAE https//arxiv.org/abs/2111.06377

MAE就是一个上游的预训练模型，作用肯定是给下游分类或者干嘛用的，那么怎么做呢？我跟着大家一起来探索。

1 事先准备

微调在 FINETUNE.md下根据指示需要下载微调模型

然后控制台输入这句代码，这里面都是args的设置其中有一个resume 是你下载微调模型的存放位置而 data_path 是数据集因为默认是imagenet 太大了没法整所以我删除了这一句直接自己整了个数据集。

这次调试是在main_finetune.py内进行。点运行编辑配置

参数中输入

--eval --resume model_save/mae_finetuned_vit_base.pth --model vit_base_patch16 --batch_size 16

代码中找到这一句直接替换成你的数据集。我们就可以开始调试了。

二调试：

不管args 我们直接进入main函数

misc.init_distributed_mode(args)

第一句就看不懂。查了之后哦~ 是与分布式训练相关的，这里默认不使用。

    print('job dir: {}'.format(os.path.dirname(os.path.realpath(__file__))))
    print("{}".format(args).replace(', ', ',\n'))

打印出工作目录和args的参数。

    seed = args.seed + misc.get_rank()
    torch.manual_seed(seed)
    np.random.seed(seed)

    cudnn.benchmark = True

    # dataset_train = build_dataset(is_train=True, args=args)
    # dataset_val = build_dataset(is_train=False, args=args)

    dataset_train = train_set
    dataset_val = val_set

一些随机性设置和dataset的引入

if True:

你指定有点毛病。

parser.add_argument('--num_workers', default=0, type=int)

由于在开启docker时没使用下面的shm指令所以将num_workers设置为了 0

docker run --runtime=nvidia -e NVIDIA_VISIBLE_DEVICES=2,3 --shm-size 8G  -it --rm dev:v1 /bin/bash

    if True:  # args.distributed:
        num_tasks = misc.get_world_size()
        global_rank = misc.get_rank()
        sampler_train = torch.utils.data.DistributedSampler(
            dataset_train, num_replicas=num_tasks, rank=global_rank, shuffle=True
        )
        print("Sampler_train = %s" % str(sampler_train))
        if args.dist_eval:
            if len(dataset_val) % num_tasks != 0:
                print('Warning: Enabling distributed evaluation with an eval dataset not divisible by process number. '
                      'This will slightly alter validation results as extra duplicate entries are added to achieve '
                      'equal num of samples per-process.')
            sampler_val = torch.utils.data.DistributedSampler(
                dataset_val, num_replicas=num_tasks, rank=global_rank, shuffle=True)  # shuffle=True to reduce monitor bias
        else:
            sampler_val = torch.utils.data.SequentialSampler(dataset_val)
    else:
        sampler_train = torch.utils.data.RandomSampler(dataset_train)
        sampler_val = torch.utils.data.SequentialSampler(dataset_val)

获得GPU数量我是1 这里有一堆关于多gpu训练的东西全部跳过不看乱七八糟的。

    data_loader_train = torch.utils.data.DataLoader(
        dataset_train, sampler=sampler_train,
        batch_size=args.batch_size,
        num_workers=args.num_workers,
        pin_memory=args.pin_mem,
        drop_last=True,
    )

训练器

    mixup_fn = None
    mixup_active = args.mixup > 0 or args.cutmix > 0. or args.cutmix_minmax is not None
    if mixup_active:
        print("Mixup is activated!")
        mixup_fn = Mixup(
            mixup_alpha=args.mixup, cutmix_alpha=args.cutmix, cutmix_minmax=args.cutmix_minmax,
            prob=args.mixup_prob, switch_prob=args.mixup_switch_prob, mode=args.mixup_mode,
            label_smoothing=args.smoothing, num_classes=args.nb_classes)

数据增广方式。我们没有数据增广。

    model = models_vit.__dict__[args.model](
        num_classes=args.nb_classes,
        drop_path_rate=args.drop_path,
        global_pool=args.global_pool,
    )

我们来看看模型模型传入了三个参数分类数 drop率和全局池化

def vit_base_patch16(**kwargs):
    model = VisionTransformer(
        patch_size=16, embed_dim=768, depth=12, num_heads=12, mlp_ratio=4, qkv_bias=True,
        norm_layer=partial(nn.LayerNorm, eps=1e-6), **kwargs)
    return model

传入这个函数抱在**kwargs内

然后进入VIT模型中

class VisionTransformer(timm.models.vision_transformer.VisionTransformer):
    """ Vision Transformer with support for global average pooling
"""
    def __init__(self, global_pool=False, **kwargs):
        super(VisionTransformer, self).__init__(**kwargs)

        self.global_pool = global_pool
        if self.global_pool:
            norm_layer = kwargs['norm_layer']
            embed_dim = kwargs['embed_dim']
            self.fc_norm = norm_layer(embed_dim)

            del self.norm  # remove the original norm

添加了一个归一化层到这里似乎看出来这是一个纯验证的过程。继续看

n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)

    model_without_ddp = model
    n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)

    print("Model = %s" % str(model_without_ddp))
    print('number of params (M): %.2f' % (n_parameters / 1.e6))

打印出模型和模型需要的参数是VIT模型。

    # build optimizer with layer-wise lr decay (lrd)
    param_groups = lrd.param_groups_lrd(model_without_ddp, args.weight_decay,
        no_weight_decay_list=model_without_ddp.no_weight_decay(),
        layer_decay=args.layer_decay
    )
    optimizer = torch.optim.AdamW(param_groups, lr=args.lr)
    loss_scaler = NativeScaler()

参数decay 和优化器及损失函数 loss——scaler 等价于求梯度回传并且更新参数

    elif args.smoothing > 0.:
        criterion = LabelSmoothingCrossEntropy(smoothing=args.smoothing)

这是loss 采用的是标签平滑loss 这是一种标签用的是概率的方法

misc.load_model(args=args, model_without_ddp=model_without_ddp, optimizer=optimizer, loss_scaler=loss_scaler)

加载模型。进入函数

def load_model(args, model_without_ddp, optimizer, loss_scaler):
    if args.resume:
        if args.resume.startswith('https'):
            checkpoint = torch.hub.load_state_dict_from_url(
                args.resume, map_location='cpu', check_hash=True)
        else:
            checkpoint = torch.load(args.resume, map_location='cpu')
        model_without_ddp.load_state_dict(checkpoint['model'])

        #&#x8FD9;&#x91CC;&#x62A5;&#x9519;&#x4E86; &#x56E0;&#x4E3A;&#x52A0;&#x8F7D;&#x7684;&#x6A21;&#x578B;&#x662F;1000&#x5206;&#x7C7B;&#x5934;&#x7684; &#x6240;&#x4EE5;&#x6211;&#x51B3;&#x5B9A;&#x628A;&#x5206;&#x7C7B;&#x6570;&#x6539;&#x6210;1000 &#x53CD;&#x6B63;&#x6211;&#x4EEC;&#x53EA;&#x770B;&#x6D41;&#x7A0B; &#x4E0D;&#x770B;&#x7ED3;&#x679C;

        print("Resume checkpoint %s" % args.resume)
        if 'optimizer' in checkpoint and 'epoch' in checkpoint and not (hasattr(args, 'eval') and args.eval):
            optimizer.load_state_dict(checkpoint['optimizer'])
            args.start_epoch = checkpoint['epoch'] + 1
            if 'scaler' in checkpoint:
                loss_scaler.load_state_dict(checkpoint['scaler'])
            print("With optim & sched!")

    if args.eval:
        test_stats = evaluate(data_loader_val, model, device)
        print(f"Accuracy of the network on the {len(dataset_val)} test images: {test_stats['acc1']:.1f}%")
        exit(0)

测试验证集

@torch.no_grad()
def evaluate(data_loader, model, device):
    criterion = torch.nn.CrossEntropyLoss()
     #&#x5206;&#x7C7B;&#x635F;&#x5931;

    metric_logger = misc.MetricLogger(delimiter="  ")
    header = 'Test:'
    #&#x8FD9;&#x5E94;&#x8BE5;&#x662F;&#x663E;&#x793A;&#x7528;&#x7684;

    # switch to evaluation mode
    model.eval()

    for batch in metric_logger.log_every(data_loader, 10, header):
    #&#x540E;&#x9762;&#x7684;&#x4E1C;&#x897F;&#x662F;&#x7528;&#x6765;&#x6253;&#x5370;&#x7684;
        images = batch[0]
        target = batch[-1]
        images = images.to(device, non_blocking=True)
        target = target.to(device, non_blocking=True)

        # compute output
        with torch.cuda.amp.autocast():
            output = model(images)
            loss = criterion(output, target)

        acc1, acc5 = accuracy(output, target, topk=(1, 5))
 #&#x8BA1;&#x7B97;top1&#xFF0C;5&#x51C6;&#x786E;&#x7387;  &#x8FD9;&#x4E2A;accuracy&#x51FD;&#x6570; &#x53EF;&#x4EE5;&#x4ECE;torch.utils &#x4E2D;&#x8C03;&#x7528; &#x6211;&#x4EE5;&#x524D;&#x548B;&#x4E0D;&#x77E5;&#x9053;

        batch_size = images.shape[0]
        metric_logger.update(loss=loss.item())
        metric_logger.meters['acc1'].update(acc1.item(), n=batch_size)
        metric_logger.meters['acc5'].update(acc5.item(), n=batch_size)
    # gather the stats from all processes
    metric_logger.synchronize_between_processes()
    print('* Acc@1 {top1.global_avg:.3f} Acc@5 {top5.global_avg:.3f} loss {losses.global_avg:.3f}'
          .format(top1=metric_logger.acc1, top5=metric_logger.acc5, losses=metric_logger.loss))

    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}

从测试出来得到了准确度给人的感觉 vit最后一层就是分类层。

这好像没什么就是一个载入模型然后计算准确率我也不知道他是怎么写的如此的复杂的同样也不知道作用现在让我们把

args.finetune 改为mae_pretrain_vit_base.pth 把

args.eval改为False 进入微调步骤

    if args.finetune and not args.eval:
        checkpoint = torch.load(args.finetune, map_location='cpu')

        print("Load pre-trained checkpoint from: %s" % args.finetune)
        checkpoint_model = checkpoint['model']
        state_dict = model.state_dict()

载入了模型

        for k in ['head.weight', 'head.bias']:
            if k in checkpoint_model and checkpoint_model[k].shape != state_dict[k].shape:
                print(f"Removing key {k} from pretrained checkpoint")
                del checkpoint_model[k]

这一句是说如果分类头的分类数不等于预训练模型的分类数就去掉分类头。

interpolate_pos_embed(model, checkpoint_model)

位置嵌入因为mae的位置嵌入是固定的所以直接载入预训练模型的位置

def interpolate_pos_embed(model, checkpoint_model):
    if 'pos_embed' in checkpoint_model:
        pos_embed_checkpoint = checkpoint_model['pos_embed']
        embedding_size = pos_embed_checkpoint.shape[-1]
        num_patches = model.patch_embed.num_patches
        num_extra_tokens = model.pos_embed.shape[-2] - num_patches
        # height (== width) for the checkpoint position embedding
        orig_size = int((pos_embed_checkpoint.shape[-2] - num_extra_tokens) ** 0.5)
        # height (== width) for the new position embedding
        new_size = int(num_patches ** 0.5)
        # class_token and dist_token are kept unchanged
        if orig_size != new_size:
            print("Position interpolate from %dx%d to %dx%d" % (orig_size, orig_size, new_size, new_size))
            extra_tokens = pos_embed_checkpoint[:, :num_extra_tokens]
            # only the position tokens are interpolated
            pos_tokens = pos_embed_checkpoint[:, num_extra_tokens:]
            pos_tokens = pos_tokens.reshape(-1, orig_size, orig_size, embedding_size).permute(0, 3, 1, 2)
            pos_tokens = torch.nn.functional.interpolate(
                pos_tokens, size=(new_size, new_size), mode='bicubic', align_corners=False)
            pos_tokens = pos_tokens.permute(0, 2, 3, 1).flatten(1, 2)
            new_pos_embed = torch.cat((extra_tokens, pos_tokens), dim=1)
            checkpoint_model['pos_embed'] = new_pos_embed

        msg = model.load_state_dict(checkpoint_model, strict=False)
        print(msg)

这一句很重要因为在MAE预训练模型中是没有head层的也没有归一化层需要载入

        trunc_normal_(model.head.weight, std=2e-5)

接下来微调

    print(f"Start training for {args.epochs} epochs")
    start_time = time.time()
    max_accuracy = 0.0
    for epoch in range(args.start_epoch, args.epochs):
        if args.distributed:
            data_loader_train.sampler.set_epoch(epoch)
        train_stats = train_one_epoch(
            model, criterion, data_loader_train,
            optimizer, device, epoch, loss_scaler,
            args.clip_grad, mixup_fn,
            log_writer=log_writer,
            args=args
        )
        if args.output_dir:
            misc.save_model(
                args=args, model=model, model_without_ddp=model_without_ddp, optimizer=optimizer,
                loss_scaler=loss_scaler, epoch=epoch)

简单的准备

def train_one_epoch(model: torch.nn.Module, criterion: torch.nn.Module,
                    data_loader: Iterable, optimizer: torch.optim.Optimizer,
                    device: torch.device, epoch: int, loss_scaler, max_norm: float = 0,
                    mixup_fn: Optional[Mixup] = None, log_writer=None,
                    args=None):
    model.train(True)
    metric_logger = misc.MetricLogger(delimiter="  ")
    metric_logger.add_meter('lr', misc.SmoothedValue(window_size=1, fmt='{value:.6f}'))
    header = 'Epoch: [{}]'.format(epoch)
    print_freq = 20

    accum_iter = args.accum_iter

训练函数

        if data_iter_step % accum_iter == 0:
            lr_sched.adjust_learning_rate(optimizer, data_iter_step / len(data_loader) + epoch, args)

更改学习率的方法有了如果迭代步数甚至可以做到调整层学习率

        if not math.isfinite(loss_value):
            print("Loss is {}, stopping training".format(loss_value))
            sys.exit(1)

    #&#x4E0D;&#x53EF;&#x6570;&#x5C31;&#x505C;&#x6B62;?

        loss /= accum_iter
        loss_scaler(loss, optimizer, clip_grad=max_norm,
                    parameters=model.parameters(), create_graph=False,
                    update_grad=(data_iter_step + 1) % accum_iter == 0)
        if (data_iter_step + 1) % accum_iter == 0:
            optimizer.zero_grad()

写的花里胡哨的其实就是普通的算梯度然后回传然后梯度归0

这个微调就完啦！！看起来写的好复杂啊乱七八糟的但其实好像就是把MAE模型拿过来去掉最后的归一化层然后加上分类头和归一化层得到结果说白了普通的微调呗那我就不客气了自己去搞！！！

用MAE预训练的模型用于自己下游的分类

下面放上我微调MAE用来做医学图像分类的代码 :

（之前用的是食物分类的，但是那个被我搞掉了。这里只是涉及加载数据集的不同罢了。）

首先args 设置分类数 , drop率全局池化模型选择预训练模型的位置把之前下的

mae_pretrain_vit_base.pth这个文件放进去

def get_args_parser():
    parser = argparse.ArgumentParser('MAE fine-tuning for image classification', add_help=False)

    #model
    parser.add_argument('--nb_classes', default=2, type=int,
                        help='number of the classfication types')
    parser.add_argument('--drop_path', default=0.1, type=float, metavar='PCT',
                        help='Drop path rate (default: 0.1)')
    parser.add_argument('--global_pool', action='store_true')
    parser.set_defaults(global_pool=True)

    parser.add_argument('--model', default='vit_base_patch16', type=str, metavar='MODEL',
                        help='Name of model to train')
    #path
    parser.add_argument('--predModelPath', default='model_save/mae_pretrain_vit_base.pth',
                        help='finetune from checkpoint')

    return parser

args = get_args_parser()
args = args.parse_args()

初始化模型就是加载模型 :

def initMaeClass(args):
    model = models_vit.__dict__[args.model](
        num_classes=args.nb_classes,
        drop_path_rate=args.drop_path,
        global_pool=args.global_pool,
    )
    checkpoint = torch.load(args.predModelPath, map_location='cpu')

    checkpoint_model = checkpoint['model']
    state_dict = model.state_dict()

    msg = model.load_state_dict(checkpoint_model, strict=False)
    print(msg)
    return model

导入数据集设置超参数

##################################################################
savePath = 'model_save/foodFine'

class1Train = r'/home/dataset/pendi/cls1/train'
class2Train = r'/home/dataset/pendi/cls2/train'
class1Val = r'/home/dataset/pendi/cls1/val'
class2Val = r'/home/dataset/pendi/cls2/val'
class1Test = r'/home/dataset/pendi/cls1/test'
class2Test = r'/home/dataset/pendi/cls2/test'
trainloader = getDataLoader(class1Train, class2Train, batchSize=1)
valloader = getDataLoader(class1Val, class2Val, batchSize=1)
#################################################################
random.seed(1)
batch_size = 128
learning_rate = 1e-4
w = 0.00001
criterion =nn.CrossEntropyLoss()

epoch = 2000
w = 0.00001
device = 'cuda:1' if torch.cuda.is_available() else 'cpu'
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

训练

    train_VAL(model,trainloader, valloader, optimizer, criterion, batch_size, w, num_epoch=epoch,save_=savePath,device=device)

这就是用MAE预训练模型用来提特征然后微调分类的方法了

全部代码 :

import torch
import matplotlib.pyplot as plt
import time
import numpy as np
import torch.nn as nn
import torch.nn.init as init
from torch.utils.data import DataLoader,Dataset
#&#x66F4;&#x65B0;&#x5B66;&#x4E60;&#x7387;

def train_VAL(model,train_set,val_set,optimizer,loss,batch_size,w,num_epoch,device, save_):
    # train_loader = DataLoader(train_set,batch_size=batch_size,shuffle=True,num_workers=0)
    # val_loader = DataLoader(val_set,batch_size=batch_size,shuffle=True,num_workers=0)
    train_loader= train_set
    val_loader = val_set
    # &#x7528;&#x6D4B;&#x8BD5;&#x96C6;&#x8BAD;&#x7EC3;&#x6A21;&#x578B;model(),&#x7528;&#x9A8C;&#x8BC1;&#x96C6;&#x4F5C;&#x4E3A;&#x6D4B;&#x8BD5;&#x96C6;&#x6765;&#x9A8C;&#x8BC1;
    plt_train_loss = []
    plt_val_loss = []
    plt_train_acc = []
    plt_val_acc = []
    maxacc = 0

    for epoch in range(num_epoch):
        # update_lr(optimizer,epoch)
        epoch_start_time = time.time()
        train_acc = 0.0
        train_loss = 0.0
        val_acc = 0.0
        val_loss = 0.0

        model.train() # &#x786E;&#x4FDD; model_utils &#x662F;&#x5728; &#x8BAD;&#x7EC3; model_utils (&#x5F00;&#x542F; Dropout &#x7B49;...)
        for i, data in enumerate(train_loader):
            optimizer.zero_grad() # &#x7528; optimizer &#x5C06;&#x6A21;&#x578B;&#x53C2;&#x6570;&#x7684;&#x68AF;&#x5EA6; gradient &#x5F52;&#x96F6;
            train_pred = model(data[0].to(device)) # &#x5229;&#x7528; model_utils &#x5F97;&#x5230;&#x9884;&#x6D4B;&#x7684;&#x6982;&#x7387;&#x5206;&#x5E03;&#xFF0C;&#x8FD9;&#x8FB9;&#x5B9E;&#x9645;&#x4E0A;&#x662F;&#x8C03;&#x7528;&#x6A21;&#x578B;&#x7684; forward &#x51FD;&#x6570;
            # batch_loss = loss(train_pred, data[1].cuda(), w, model) # &#x8BA1;&#x7B97; loss &#xFF08;&#x6CE8;&#x610F; prediction &#x8DDF; label &#x5FC5;&#x987B;&#x540C;&#x65F6;&#x5728; CPU &#x6216;&#x662F; GPU &#x4E0A;&#xFF09;
            batch_loss = loss(train_pred, data[1].to(device))
            batch_loss.backward() # &#x5229;&#x7528; back propagation &#x7B97;&#x51FA;&#x6BCF;&#x4E2A;&#x53C2;&#x6570;&#x7684; gradient
            optimizer.step() # &#x4EE5; optimizer &#x7528; gradient &#x66F4;&#x65B0;&#x53C2;&#x6570;

            train_acc += np.sum(np.argmax(train_pred.cpu().data.numpy(), axis=1) == data[1].numpy())
            train_loss += batch_loss.item()

        #&#x9A8C;&#x8BC1;&#x96C6;val
        model.eval()

        with torch.no_grad():
            for i, data in enumerate(val_loader):
                val_pred = model(data[0].to(device))
                # batch_loss = loss(val_pred, data[1].cuda(),w, model)
                batch_loss = loss(val_pred, data[1].to(device))
                val_acc += np.sum(np.argmax(val_pred.cpu().data.numpy(), axis=1) == data[1].numpy())
                val_loss += batch_loss.item()

            if val_acc > maxacc:
                torch.save(model,save_+'max')
                maxacc = val_acc
                # torch.save({'epoch': epoch + 1, 'state_dict': model_utils.state_dict(), 'best_loss': val_loss,
                #             'optimizer': optimizer.state_dict(),'alpha': loss.alpha, 'gamma': loss.gamma},
                #            'cat_dog_res18')
                #&#x4FDD;&#x5B58;&#x7528;&#x4E8E;&#x753B;&#x56FE;
            plt_train_acc.append(train_acc/train_set.dataset.__len__())
            plt_train_loss.append(train_loss/train_set.dataset.__len__())
            plt_val_acc.append(val_acc/val_set.dataset.__len__())
            plt_val_loss.append(val_loss/val_set.dataset.__len__())

            #&#x5C06;&#x7ED3;&#x679C; print &#x51FA;&#x4F86;
            print('[%03d/%03d] %2.2f sec(s) Train Acc: %3.6f Loss: %3.6f | Val Acc: %3.6f loss: %3.6f' % \
                  (epoch + 1, num_epoch, time.time()-epoch_start_time, \
                   plt_train_acc[-1], plt_train_loss[-1], plt_val_acc[-1], plt_val_loss[-1]))

        if epoch == num_epoch-1:
            torch.save(model,save_ + 'final')

    # Loss&#x66F2;&#x7EBF;
    plt.plot(plt_train_loss)
    plt.plot(plt_val_loss)
    plt.title('Loss')
    plt.legend(['train', 'val'])
    plt.savefig('loss.png')
    plt.show()

    # Accuracy&#x66F2;&#x7EBF;
    plt.plot(plt_train_acc)
    plt.plot(plt_val_acc)
    plt.title('Accuracy')
    plt.legend(['train', 'val'])
    plt.savefig('acc.png')
    plt.show()

import os
import numpy as np
import torch
import torch.nn as nn

import random

import argparse

import torch

import timm

assert timm.__version__ == "0.5.4" # version check

import models_vit
from torch import optim

from model_utils.data import getDataLoader
from model_utils.train import train_VAL
from model_utils.foodData import trainloader, valloader

def get_args_parser():
    parser = argparse.ArgumentParser('MAE fine-tuning for image classification', add_help=False)

    #model
    parser.add_argument('--nb_classes', default=11, type=int,
                        help='number of the classfication types')
    parser.add_argument('--drop_path', default=0.1, type=float, metavar='PCT',
                        help='Drop path rate (default: 0.1)')
    parser.add_argument('--global_pool', action='store_true')
    parser.set_defaults(global_pool=True)

    parser.add_argument('--model', default='vit_base_patch16', type=str, metavar='MODEL',
                        help='Name of model to train')
    #path
    parser.add_argument('--predModelPath', default='model_save/mae_pretrain_vit_base.pth',
                        help='finetune from checkpoint')

    return parser

def initMaeClass(args):
    model = models_vit.__dict__[args.model](
        num_classes=args.nb_classes,
        drop_path_rate=args.drop_path,
        global_pool=args.global_pool,
    )
    checkpoint = torch.load(args.predModelPath, map_location='cpu')

    checkpoint_model = checkpoint['model']
    state_dict = model.state_dict()

    msg = model.load_state_dict(checkpoint_model, strict=False)
    print(msg)
    return model

##################################################################
savePath = 'model_save/foodFine'

class1Train = r'/home/dataset/food/cls1/train'

class2Train = r'/home/dataset/pendi/cls2/train'
class1Val = r'/home/dataset/pendi/cls1/val'
class2Val = r'/home/dataset/pendi/cls2/val'
class1Test = r'/home/dataset/pendi/cls1/test'
class2Test = r'/home/dataset/pendi/cls2/test'

###

trainloader = getDataLoader(class1Train, class2Train, batchSize=1)
valloader = getDataLoader(class1Val, class2Val, batchSize=1)

#&#x8BFB;&#x6570;&#x636E;&#x8FD9;&#x91CC;&#x6309;&#x7167;&#x81EA;&#x5DF1;&#x7684;&#x5199;&#x6CD5;&#x5C31;&#x884C; &#x3002;
#################################################################
random.seed(1)
batch_size = 128
learning_rate = 1e-4
w = 0.00001
criterion =nn.CrossEntropyLoss()

epoch = 2000
w = 0.00001
device = 'cuda:1' if torch.cuda.is_available() else 'cpu'
##################################################################

if __name__ == '__main__':
    args = get_args_parser()
    args = args.parse_args()
    model = initMaeClass(args).to(device)
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)
    train_VAL(model,trainloader, valloader, optimizer, criterion, batch_size, w, num_epoch=epoch,save_=savePath,device=device)

    # modelpath1 = savePath+'max'
    # model1 = torch.load(modelpath1)
    #
    # test(model1, test_set=test_dataset)
    #
    # modelpath2 = savePath+'final'
    #
    # model2 = torch.load(modelpath2)
    # test(model2, test_set=test_dataset)

import cv2
import os
import numpy as np
import torchvision.transforms as transforms
import torchvision
from torchvision import transforms,datasets
from torch.utils.data import DataLoader, Dataset, random_split
from sklearn.model_selection import train_test_split
import torch
import random
from imblearn.over_sampling import SMOTE
from collections import Counter

HW = 224

def readjpgfile(listpath,label,rate = None):
    assert rate == None or rate//1 == rate
    # label &#x662F;&#x4E00;&#x4E2A;&#x5E03;&#x5C14;&#x503C;&#xFF0C;&#x4EE3;&#x8868;&#x9700;&#x4E0D;&#x9700;&#x8981;&#x8FD4;&#x56DE; y &#x503C;
    image_dir = sorted(os.listdir(listpath))
    n = len(image_dir)
    if rate:
        n = n*rate
    # x&#x5B58;&#x50A8;&#x56FE;&#x7247;&#xFF0C;&#x6BCF;&#x5F20;&#x5F69;&#x8272;&#x56FE;&#x7247;&#x90FD;&#x662F;128(&#x9AD8;)*128(&#x5BBD;)*3(&#x5F69;&#x8272;&#x4E09;&#x901A;&#x9053;)
    x = np.zeros((n, HW , HW , 3), dtype=np.uint8)
    # y&#x5B58;&#x50A8;&#x6807;&#x7B7E;&#xFF0C;&#x6BCF;&#x4E2A;y&#x5927;&#x5C0F;&#x4E3A;1
    y = np.zeros(n, dtype=np.uint8)
    if not rate:
        for i, file in enumerate(image_dir):
            img = cv2.imread(os.path.join(listpath, file))
            # xshape = img.shape
            # Xmid = img.shape[1]//2
            # &#x5229;&#x7528;cv2.resize()&#x51FD;&#x6570;&#x5C06;&#x4E0D;&#x540C;&#x5927;&#x5C0F;&#x7684;&#x56FE;&#x7247;&#x7EDF;&#x4E00;&#x4E3A;128(&#x9AD8;)*128(&#x5BBD;) os.path.join&#x4F5C;&#x7528;&#x662F;&#x5C06;&#x4E24;&#x4E2A;&#x8DEF;&#x5F84;&#x62FC;&#x63A5;&#x8D77;&#x6765;&#x3002;&#x8DEF;&#x5F84;+&#x6587;&#x4EF6;&#x540D;
            x[i, :, :] = cv2.resize(img,(HW , HW ))
            y[i] = label
    else:
        for i, file in enumerate(image_dir):
            img = cv2.imread(os.path.join(listpath, file))
            # xshape = img.shape
            # Xmid = img.shape[1]//2
            # &#x5229;&#x7528;cv2.resize()&#x51FD;&#x6570;&#x5C06;&#x4E0D;&#x540C;&#x5927;&#x5C0F;&#x7684;&#x56FE;&#x7247;&#x7EDF;&#x4E00;&#x4E3A;128(&#x9AD8;)*128(&#x5BBD;) os.path.join&#x4F5C;&#x7528;&#x662F;&#x5C06;&#x4E24;&#x4E2A;&#x8DEF;&#x5F84;&#x62FC;&#x63A5;&#x8D77;&#x6765;&#x3002;&#x8DEF;&#x5F84;+&#x6587;&#x4EF6;&#x540D;
            for j in range(rate):
                x[rate*i + j, :, :] = cv2.resize(img,(HW , HW ))
                y[rate*i + j] = label

    return x,y

#training &#x65F6;&#xFF0C;&#x901A;&#x8FC7;&#x968F;&#x673A;&#x65CB;&#x8F6C;&#x3001;&#x6C34;&#x5E73;&#x7FFB;&#x8F6C;&#x56FE;&#x7247;&#x6765;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x589E;&#x5F3A;&#xFF08;data_abnor augmentation&#xFF09;
train_transform = transforms.Compose([
    # transforms.RandomResizedCrop(150),
    transforms.ToPILImage(),
    transforms.ToTensor()
    # transforms.Normalize(mean=[0.485, 0.456, 0.406],
    #                      std=[0.229, 0.224, 0.225]
])

#testing &#x65F6;&#xFF0C;&#x4E0D;&#x9700;&#x8981;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x589E;&#x5F3A;&#xFF08;data_abnor augmentation&#xFF09;
test_transform = transforms.Compose([
    transforms.ToPILImage(),
    transforms.ToTensor(),
])

class ImgDataset(Dataset):

    def __init__(self, x, y=None, transform=None, lessTran = False):
        self.x = x
        # label &#x9700;&#x8981;&#x662F; LongTensor &#x578B;
        self.y = y
        if y is not None:
            self.y = torch.LongTensor(y)
        self.transform = transform
        self.lessTran = lessTran
        # &#x5F3A;&#x5236;&#x6C34;&#x5E73;&#x7FFB;&#x8F6C;
        self.trans0 = torchvision.transforms.Compose([
            transforms.ToPILImage(),
            torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.RandomHorizontalFlip(p=1),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        # &#x5F3A;&#x5236;&#x5782;&#x76F4;&#x7FFB;&#x8F6C;
        self.trans1 = torchvision.transforms.Compose([
            transforms.ToPILImage(),
            torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.RandomVerticalFlip(p=1),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        # &#x65CB;&#x8F6C;-90~90
        self.trans2 = torchvision.transforms.Compose([
            transforms.ToPILImage(),torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.RandomRotation(90),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])

        # &#x4EAE;&#x5EA6;&#x5728;0-2&#x4E4B;&#x95F4;&#x589E;&#x5F3A;&#xFF0C;0&#x662F;&#x539F;&#x56FE;
        self.trans3 = torchvision.transforms.Compose([
            transforms.ToPILImage(),torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.ColorJitter(brightness=1),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        # &#x4FEE;&#x6539;&#x5BF9;&#x6BD4;&#x5EA6;&#xFF0C;0-2&#x4E4B;&#x95F4;&#x589E;&#x5F3A;&#xFF0C;0&#x662F;&#x539F;&#x56FE;
        self.trans4 = torchvision.transforms.Compose([
            transforms.ToPILImage(),torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.ColorJitter(contrast=2),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        # &#x989C;&#x8272;&#x53D8;&#x5316;
        self.trans5 = torchvision.transforms.Compose([
            transforms.ToPILImage(),torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.ColorJitter(hue=0.5),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        # &#x6DF7;&#x5408;
        self.trans6 = torchvision.transforms.Compose([
            transforms.ToPILImage(),torchvision.transforms.Resize(256),
                                                      torchvision.transforms.RandomCrop(224),
                                                      torchvision.transforms.ColorJitter(brightness=1, contrast=2, hue=0.5),
                                                      torchvision.transforms.ToTensor(),
                                                      torchvision.transforms.Normalize([0.485, 0.456, 0.406],
                                                                                       [0.229, 0.224, 0.225])
                                                      ])
        self.trans_list = [self.trans0, self.trans1, self.trans2, self.trans3, self.trans4, self.trans5, self.trans6]

    def __len__(self):
        return len(self.x)

    def __getitem__(self, index):
        X = self.x[index]

        if self.y is not None:
            if  self.lessTran:
                num = random.randint(0, 6)
                X = self.trans_list[num](X)
            else:
                if self.transform is not None:
                    X = self.transform(X)
            Y = self.y[index]
            return X, Y
        else:
            return X
    def getbatch(self,indices):
        images = []
        labels = []
        for index in indices:
            image,label = self.__getitem__(index)
            images.append(image)
            labels.append(label)
        return torch.stack(images),torch.tensor(labels)

def getDateset(dir_class1, dir_class2, testSize=0.3,rate = None, testNum = None, lessTran = False):
    '''
    :param dir_class1:   &#x8FD9;&#x4E2A;&#x662F;&#x53C2;&#x6570;&#x8F83;&#x5C11;&#x7684;&#x90A3;&#x4E2A;
    :param dir_class2:
    :param testSize:
    :param rate:
    :param testNum:
    :return:
    '''
    x1,y1 = readjpgfile(dir_class1,0,rate=rate)  #&#x7C7B;1&#x662F;0
    x2,y2 = readjpgfile(dir_class2,1)   #&#x7C7B;2&#x662F;1
    if testNum == -1:
        X = np.concatenate((x1, x2))
        Y = np.concatenate((y1, y2))
        dataset = ImgDataset(X, Y, transform=train_transform, lessTran = lessTran)
        return dataset
    if not testNum :
        X = np.concatenate((x1, x2))
        Y = np.concatenate((y1, y2))
        train_x, test_x, train_y, test_y = train_test_split(X,Y,test_size=testSize,random_state=0)

    else:
        train_x1, test_x1, train_y1, test_y1 = train_test_split(x1,y1,test_size=testNum/len(y1),random_state=0)
        train_x2, test_x2, train_y2, test_y2 = train_test_split(x2,y2,test_size=testNum/len(y2),random_state=0)
        print(len(test_y2),len(test_y1))
        train_x = np.concatenate((train_x1,train_x2))
        test_x = np.concatenate((test_x1, test_x2))
        train_y = np.concatenate((train_y1,train_y2))
        test_y = np.concatenate((test_y1, test_y2))

    train_dataset = ImgDataset(train_x,train_y ,transform=train_transform,lessTran = lessTran)
    test_dataset = ImgDataset(test_x ,test_y,transform=test_transform,lessTran = lessTran)

    # test_x1,test_y1 = readjpgfile(r'F:\li_XIANGMU\pycharm\deeplearning\cat_dog\catsdogs\test\Cat',0)  #&#x732B;&#x662F;0
    # test_x2,test_y2 = readjpgfile(r'F:\li_XIANGMU\pycharm\deeplearning\cat_dog\catsdogs\test\Dog',1)
    # test_x = np.concatenate((test_x1,test_x2))
    # test_y = np.concatenate((test_y1,test_y2))

    return train_dataset, test_dataset

def smote(X_train,y_train):
    oversampler = SMOTE(sampling_strategy='auto', random_state=np.random.randint(100), k_neighbors=5, n_jobs=-1)
    os_X_train, os_y_train = oversampler.fit_resample(X_train,y_train)
    print('Resampled dataset shape {}'.format(Counter(os_y_train)))
    return os_X_train, os_y_train

def getDataLoader(class1path, class2path, batchSize,mode='train'):
    assert mode in ['train','val', 'test']
    if mode == 'train':
        train_set = getDateset(class1path, class2path, testNum=-1)

        trainloader = DataLoader(train_set,batch_size=batchSize, shuffle=True)

        return trainloader

    elif mode == 'test':
        testset = getDateset(class1path, class2path, testNum=-1)
        testLoader = DataLoader(testset, batch_size=1, shuffle=False)
        return testLoader

Original: https://blog.csdn.net/YI_SHU_JIA/article/details/123331766
Author: 亮子李
Title: MAE源代码理解 part2 ：预训练调试

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/717353/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas loc与iloc

先来看一下示例： #!/usr/bin/python import pandas as pd 三个字&#x…

人工智能 2023年7月7日
0064
ENVI剪裁图片（剪裁、裁移位等问题）

工具：envi3.5版本目的：剪裁原图和掩膜图对应同一区域问题：tiff四波段正常剪裁，但无法剪裁掩膜，出现如下啥波段不足，啥啥啥为0 ，报错error 解决办法：经过无数次…

人工智能 2023年6月18日
0091
JavaWeb实现学生管理系统

JavaWeb实现学生管理系统一、项目介绍二、项目结构三、前期准备 * 1.配置maven环境，在pom.xml配置文件中配置项目所依赖的jar包 2.在MySql数据库中，…

人工智能 2023年7月30日
0053
Cartopy绘图入门指南

前言嗨，你好，我是来自点点GIS的南南我与Cartopy的认识起源于”气象水文科研猫”的这个推文，那时候的我觉得，用代码画地图好酷，arcgis就感觉l…

人工智能 2023年7月4日
00100
用pyspark学习《应用预测建模》（五）模型调优、交叉验证、衡量回归模型效果

先补充一下为啥用pyspark而不是scikit-learn。scikit-learn相比spark-mllib有很多优点。首先scikit-learn支持的模型更多，其次scik…

人工智能 2023年6月18日
0064
NLP——Tokenizer

1.什么是Tokenizer 使用文本的第一步就是将其拆分为单词。单词称为标记（token），将文本拆分为标记的过程称为标记化(tokenization)，而标记化用到的模型或工具…

人工智能 2023年5月27日
0078
yolov5-6.0部署：基于旋转目标的yolov5部署—opencv

yolov5的改进有很多，比如小目标检测，其中添加了检测头、tph-yolov5的小目标检测等等，也有大神做了旋转目标检测的yolov5，下面是基于旋转目标检测的网址：YOLOv5…

人工智能 2023年5月28日
0081
TransUnet官方代码训练自己数据集（彩色RGB3通道图像的分割）

码字不易，收藏之余，别忘了给我点个赞吧！ ———Start 官方代码：https://github.com/Beckschen/TransUNe…

人工智能 2023年7月19日
00136
回归分析——基本内容

变量之间X,Y之间存在某种密切的联系，但并非严格的函数关系（非确定性关系）回归：回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术，变量之间的关系并非确定的函…

人工智能 2023年6月18日
0073
这可能是神经网络 LeNet-5 最详细的解释了！

大家好，我是红色石头！说起深度学习目标检测算法，就不得不提 LeNet- 5 网络。LeNet-5由LeCun等人提出于1998年提出，是一种用于手写体字符识别的非常高效的卷积神…

人工智能 2023年6月16日
0052
TensorFlow 2.0 API

数值类型的张量是 TensorFlow 的主要数据载体，根据维度数来区分，可分为:(1)标量(Scalar)。单个的实数，如 1.2, 3.4 等，维度(Dimension)…

人工智能 2023年5月26日
0050
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java扶贫助农系统v7tq9

这个选题的话其实有很多的，就看你自己能接受怎么样的，比如可以做网站类、系统类、小程序类、安卓app、大数据类等等，这个也要看你个人能力和技术问题，如果技术小白或者有一点点基础的话建…

人工智能 2023年6月27日
0079
【损失函数：3】感知损失：Perceptual Loss、总变分损失（TV Loss）（附Pytorch实现）

损失函数一、感知损失（Perceptual Loss） * 1.相关介绍 – 1）Perceptual Loss是什么？ 2）Perceptual Loss如何构造？…

人工智能 2023年7月21日
0073
泰坦尼克号乘客获救预测

import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.prepro…

人工智能 2023年7月7日
0081
python 插入dataframe_python – 将日期插入DataFrame的行

我有一个DataFrame df,其索引包含1997年到2011年1月份每天的日期时间： In [164]: df Out[164]: Tavg 1997-01-01 20.48 …

人工智能 2023年7月7日
0063
Pytorch 深度学习注意力机制的解析与代码实现

1. Attention（注意力机制）的诞生注意力机制，起初是作为自然语言处理中的工作为大家熟知（文章 Attention is all you need 详细介绍了”…

人工智能 2023年7月22日
00174

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

MAE源代码理解 part2 ： 预训练调试

大家都在看

MAE源代码理解 part2 ：预训练调试