Wandb——Pytorch模型指标可视化及超参搜索

2023年6月17日上午4:38 • 人工智能 • 阅读 69

文章目录

Wandb——Pytorch模型指标可视化及超参搜索
前言
一、wandb是什么？
二、可视化模型参数
*
1.伪代码
2.官方示例
–
三、超参搜索
*
替换
添加
最后
附录

前言

之前在使用YOLOV5开源代码的过程中注意到里面有个名为wandb的包，用来记录并可视化模型参数（类似tensorboard，但更好看嘿嘿），用起来非常方便。最近抽了两天折腾了一下，但感觉不论是官网的示例还是中文平台上的一些教程都非常模棱两可（不排除是我菜一时半会看不明白，所以决定记录一下自己探索的过程，一方面方便自己复盘，另一方面也方便其他有类似需求的人参考。

提示：这里仅尝试了结合Pytorch进行模型参数记录以及超参搜索，更多用法仍有待探索

一、wandb是什么？

wandb全称” Weights & Biases “，说白了就是” y = w*x + b “中的权重和偏置，只不过对应到深度学习中会更为复杂一些。
按照官网的解释，wandb是一款提供给开发人员的用来更好更快构建机器学习模型的平台，具有轻量化、可交互、快速跟踪实验、追踪版本、迭代数据集、评估模型性能、重现模型、可视化结果和点回归等特性。同时也非常方便将实验分享给其他人。

这里给出一些相关网址：

wandb官网：https://wandb.ai/site

wandb文档：https://docs.wandb.ai/v/zh-hans/

常见报错及解决：https://docs.wandb.ai/guides/sweeps/faq

模型参数可视化colab示例：http://wandb.me/pytorch-colab

超参搜索colab示例：https://colab.research.google.com/github/wandb/examples/blob/master/colabs/pytorch/Organizing_Hyperparameter_Sweeps_in_PyTorch_with_W%26B.ipynb

提示：如果网上不去说明需要xxx，不用担心后面给出了重要部分的截图 或也可参考下方代码

; 二、可视化模型参数

1.伪代码

代码大致可分为以下步骤：
①导包
②初始化一个项目
③设置参数
④设定好模型和数据集
⑤追踪模型参数并记录
⑥储存模型


import wandb

wandb.init(project="new-sota-model")

wandb.config = {"learning_rate": 0.001, "epochs": 100, "batch_size": 128}

model, dataloader = get_model(), get_data()

wandb.watch(model)

for batch in dataloader:
  metrics = model.training_step()

  wandb.log(metrics)

model.to_onnx()
wandb.save("model.onnx")

2.官方示例

>> step0:

这步的主要作用是引入一些后续需要使用的包并初始化设备是GPU还是CPU

import os
import random

import numpy as np
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
from tqdm.notebook import tqdm

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

>> step1:

导入wandb的包并登录（代码执行后会弹出网址，点进去先注册，然后就会给一串代码用来登录复制粘贴即可）
在此之前需要先在命令行使用’pip install wandb –upgrade’以安装该包
注意：如果上述过程是使用jupyternotebook操作，会有警告“找不到你正在使用的notebook”，不用担心，这是个bug忽视即可，不会对后续产生影响；再有就是使用jupyternotebook的话输出行是没有办法进行交互的，也就是没办法把那串代码粘贴进去，这时候用命令行运行这两行代码即可，然后在回来就好

import wandb

wandb.login()

>>>>>>>>>>>>> 中场休息梳理后续代码结构<<<<<<<<<<<<

官方示例将运行一个模型所需的所有部分全部层层嵌套进了一个名为model_pipeline()的函数之中，最后只需将config输入其中即可。
结构理清之后剩下的代码很容易看懂，不多赘述。

; >> step2:

初始化模型的一些参数

config = dict(
    epochs=5,
    classes=10,
    kernels=[16, 32],
    batch_size=128,
    learning_rate=0.005,
    dataset="MNIST",
    architecture="CNN")

>> step3:

定义整个流程

def model_pipeline(hyperparameters):

    with wandb.init(project="pytorch-demo", config=hyperparameters):

      config = wandb.config

      model, train_loader, test_loader, criterion, optimizer = make(config)
      print(model)

      train(model, train_loader, criterion, optimizer, config)

      test(model, test_loader)

    return model

>> step4:

定义一些具体的函数

def make(config):

    train, test = get_data(train=True), get_data(train=False)
    train_loader = make_loader(train, batch_size=config.batch_size)
    test_loader = make_loader(test, batch_size=config.batch_size)

    model = ConvNet(config.kernels, config.classes).to(device)

    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(
        model.parameters(), lr=config.learning_rate)

    return model, train_loader, test_loader, criterion, optimizer

def get_data(slice=5, train=True):
    full_dataset = torchvision.datasets.MNIST(root=".",
                                              train=train,
                                              transform=transforms.ToTensor(),
                                              download=True)

    sub_dataset = torch.utils.data.Subset(
      full_dataset, indices=range(0, len(full_dataset), slice))

    return sub_dataset

def make_loader(dataset, batch_size):
    loader = torch.utils.data.DataLoader(dataset=dataset,
                                         batch_size=batch_size,
                                         shuffle=True,
                                         pin_memory=True, num_workers=2)
    return loader


class ConvNet(nn.Module):
    def __init__(self, kernels, classes=10):
        super(ConvNet, self).__init__()

        self.layer1 = nn.Sequential(
            nn.Conv2d(1, kernels[0], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.layer2 = nn.Sequential(
            nn.Conv2d(16, kernels[1], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.fc = nn.Linear(7 * 7 * kernels[-1], classes)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.fc(out)
        return out

def train(model, loader, criterion, optimizer, config):

    wandb.watch(model, criterion, log="all", log_freq=10)

    total_batches = len(loader) * config.epochs
    example_ct = 0
    batch_ct = 0
    for epoch in tqdm(range(config.epochs)):
        for _, (images, labels) in enumerate(loader):

            loss = train_batch(images, labels, model, optimizer, criterion)
            example_ct +=  len(images)
            batch_ct += 1

            if ((batch_ct + 1) % 25) == 0:
                train_log(loss, example_ct, epoch)

def train_batch(images, labels, model, optimizer, criterion):
    images, labels = images.to(device), labels.to(device)

    outputs = model(images)
    loss = criterion(outputs, labels)

    optimizer.zero_grad()
    loss.backward()

    optimizer.step()

    return loss

def train_log(loss, example_ct, epoch):

    wandb.log({"epoch": epoch, "loss": loss}, step=example_ct)
    print(f"Loss after " + str(example_ct).zfill(5) + f" examples: {loss:.3f}")

def test(model, test_loader):
    model.eval()

    with torch.no_grad():
        correct, total = 0, 0
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

        print(f"Accuracy of the model on the {total} " +
              f"test images: {100 * correct / total}%")

        wandb.log({"test_accuracy": correct / total})

    torch.onnx.export(model, images, "model.onnx")
    wandb.save("model.onnx")

>> step5:

运行下面的函数会显示所有的记录过的指标


model = model_pipeline(config)

最后把上方代码放到一起即可正常运行

三、超参搜索

提示：官方示例这部分看着就像是另一个人写的一样，逻辑和之前的示例完全不一样，所以我这里就直接结合和上一个示例稍加修改实现超参搜索的功能。

替换

1.将上面代码中的config部分替换为：

import math

sweep_config = {
    'method': 'random'
    }
metric = {
    'name': 'test_accuracy',
    'goal': 'minimize'
    }

sweep_config['metric'] = metric

parameters_dict = {
    'learning_rate': {

        'distribution': 'uniform',
        'min': 0,
        'max': 0.1
      },
    'batch_size': {

        'distribution': 'q_log_uniform',
        'q': 1,
        'min': math.log(32),
        'max': math.log(256),
      }
    }
parameters_dict.update({
    'epochs': {
        'value': 20},
    'classes': {
        'value': 10},
    'kernels': {
        'value': [16, 32]}
})
sweep_config['parameters'] = parameters_dict

2.将pipeline的前面的部分替换为下列代码

def model_pipeline(hyperparameters=None):
    with wandb.init(config=hyperparameters):

添加

在原先s2和s3中间添加代码：该部分用来将参数范围上传至服务器由服务器负责初始化参数，这也解释了为什么’hyperparameters=None’

sweep_id = wandb.sweep(sweep_config, project="pytorch-sweeps-demo")

最后


wandb.agent(sweep_id, model_pipeline, count=50)

附录

提供两官方示例的截图：可视化和超参搜索

Original: https://blog.csdn.net/weixin_42686816/article/details/123953150
Author: 鹿枫
Title: Wandb——Pytorch模型指标可视化及超参搜索

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628564/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow框架搭建问题解决

进入CMD 环境中，python -m pip install tensorflow（多次尝试）（pip3 install tensorflow）安装成功！此次安装没有安装CUDA…

人工智能 2023年5月24日
0063
(三)大话深度学习编译器中的自动调优·Empirical Search

前面的第一篇”(一)大话深度学习编译器中的自动调优·前言“与第二篇”(二)大话深度学习编译器中的自动调优·DSL与IR“分别介绍了背…

人工智能 2023年6月25日
00106
数据分析 —— 数据挖掘是什么、能干嘛、怎么做

### 回答1： Pandas是一个 Python_库，用于数据处理和分析。在 _数据分析_中，预处理是非常重要的一步，因为它可以帮助我们清洗和转换数据，使其更适合进行分析。Pan…

人工智能 2023年7月17日
0057
神经网络是一种算法吗,神经网络包括哪些算法

1、神经网络的历史是什么？沃伦·麦卡洛克和沃尔特·皮茨（1943）基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型。这种模型使得神经网络的研究分裂为两种不同研究思路。…

人工智能 2023年7月13日
0063
python爬虫数据分析浅尝试(爬取同学的网站)

目录前言：声明：结果展示：用到的库：初始化：代码部分及解释：具体实现： 1.导入/更新： 2.爬虫： 3.词频统计： 4.词云绘制：鸣谢：前言：声明：首先，一…

人工智能 2023年6月11日
0067
【论文阅读】视频目标检测算法Mega

Memory Enhanced Global-local Aggregtation for Video Object Detection 1. Abstract 作者认为，对于人类…

人工智能 2023年6月17日
0065
HarmonyOS之AI能力·语音识别技术

语音识别功能提供面向移动终端的语音识别能力。它基于华为智慧引擎（HUAWEI HiAI Engine）中的语音识别引擎，向开发者提供人工智能应用层 API。该技术可以将语音文件、实…

人工智能 2023年5月25日
0066
CNN中的反向传播是如何工作的

问题概述本问题要求口语化形式的解决关于CNN中的反向传播的问题。我们将详细介绍反向传播的原理、算法原理、公式推导、计算步骤，并提供完整的Python代码示例和解释代码细节。反向…

人工智能 2024年1月1日
0026
【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph

【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph 核心要点：融合KG到BERT，并非是…

人工智能 2023年6月1日
0084
“第三只眼”修炼手册

人类的进步，就是后来者在前人的肩膀上，再向上一步；人类不断地进步，才成为今天的样子。从了解视觉，到做视觉项目，再到对视觉进行总结，最后提炼出自己做视觉的方法。努力让过去的自己没有虚…

人工智能 2023年6月22日
0066
半监督学习算法在自然语言处理任务中的应用是什么

详细解决问题：半监督学习算法在自然语言处理任务中的应用在自然语言处理(Natural Language Processing, NLP)任务中，数据注释是非常昂贵且耗时的工作。为…

人工智能 2024年1月1日
0029
002-OpenCV4(C++)认识图像对象-Mat并以六种方式创建Mat，以及获取图像宽高通道深度类型，运用数组和指针遍历与访问像素

.什么是Mat 图像文件的内存数据对象，通俗说就是在OpenCV当中用来把imread读取进来的图像存储起来结构在内存当中大致分为两块，一块是头部，存储一些原数据的信息，这些原数据…

人工智能 2023年7月19日
0056
两个参数让plt.title（）标题位置由你来定

两个参数让绘图plt.title（）标题位置任意放置常常想将绘制的图形的标题放在其底部，但plt.title()作图默认放在了图的上方。如何按照自己的意愿放置标题呢？简单方法如下…

人工智能 2023年7月5日
0070
数据预处理—2.为什么Lasso回归可以做特征选择(变量挑选)而岭回归做不到呢？

文章目录 * – + 1.问题解答 1.问题解答 Lasso回归与岭回归都是对线性回归进行正则化。线性回归的损失函数为：R S S = J ( w ) = ∑ i = …

人工智能 2023年6月18日
0064
遥感图像超分辨重建综述

基于深度学习的遥感图像超分辨率重建技术综述摘要部分基于深度学习的遥感图像超分重建方法分成三大类单幅遥感图像超分重建最好的是基于GAN的方法方法：基于多尺度特征提取的方法…

人工智能 2023年7月27日
0047
OpenCV人脸识别

OpenCV人脸识别与口罩检测下载文件人脸检测人脸检测的检测方法主要有两类:基于知识(根据眼睛,眉毛,嘴巴,鼻子等器官特征及相互几何位置关系来检测)和基于统计(将人脸看作一个…

人工智能 2023年6月26日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Wandb——Pytorch模型指标可视化及超参搜索

文章目录

1.伪代码

2.官方示例

>> step0:

>> step1:

>>>>>>>>>>>>> 中场休息梳理后续代码结构<<<<<<<<<<<<

; >> step2:

>> step3:

>> step4:

>> step5:

替换

添加

最后

大家都在看