利用Tensorboard可视化模型、数据和训练过程

2023年6月14日上午5:59 • Linux • 阅读 95

在60分钟闪电战中，我们像你展示了如何加载数据，通过为我们定义的 nn.Module的子类的model提供数据，在训练集上训练模型，在测试集上测试模型。为了了解发生了什么，我们在模型训练时打印了一些统计数据，以观察训练是否正在进行。但是，我们可以做的比这更好：PyTorch和TensorBoard的集成，是一个用来可视化神经网络运行结果的工具。本教程使用Fashion-MNIST数据集说明它的一些功能，该数据集可以使用 torchvision.datasets读到Pytorch中。

在本教程中，我们会学习如何：

读入数据，并进行适当的转换（几乎与之前的教程的相同）
设置TensorBoard
写入TensorBoard
使用TensorBoard检查模型架构
使用TensorBoard和更少的代码创建上一教程中可视化的交互式版本

特别是第5点，我们会看到：

检查训练数据的几种方法
如何在训练时跟踪模型的性能
训练后如何评估模型性能

我们将从CIFAR-10教程中类似的样例代码开始：

imports
import matplotlib.pyplot as plt
import numpy as np

import torch
import torchvision
import torchvision.transform as transform

import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

transforms
transform = transforms.Compose(
    [transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))]
)

datasets
trainset = torchvision.datasets.FashionMNIST('./data',
    download=True,
    train=True,
    transform=transform)
testset = torchvision.datasets.FashionMNIST('./data',
    download=True,
    train=False,
    transform=transform)

dataloaders
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                        shuffle=True, num_workers=2)

testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                        shuffle=False, num_workers=2)

constant for classes
classes = ('T-shirt/torp', 'Trouser', 'Pullover', 'Dress', 'Coat',
        'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot')

&#x663E;&#x793A;&#x5355;&#x5F20;&#x56FE;&#x7247;&#x7684;&#x8F85;&#x52A9;&#x51FD;&#x6570;
&#xFF08;&#x5728;&#x4E0B;&#x9762;&#x7684;'plot_classes_preds'&#x51FD;&#x6570;&#x4F1A;&#x4F7F;&#x7528;&#xFF09;
def matplotlib_imshow(img, one_channel=False):
    if one_channel:
        img = img.mean(dim=0)
    img = img / 2 + 0.5 # unnormalize
    npimg = img.numpy()
    if one_channel:
        plt.imshow(npimg, cmap='Greys')
    else:
        plt.imshow(np.transpose(npimg, (1, 2, 0)))

我们将在本教程中定义一个类似的模型架构，只做一些小的修改以说明图片现在是单通道而非3通道、28 _28而非32_32。

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16*4*4, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 4 * 4)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()

我们将定义同样的优化器和损失函数：

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

TensorBoard 设置

现在我们要设置TensorBoard，从 torch.utils导入 tensorboard，并定义一个 SummaryWriter，它是将信息写入TensorBoard的关键对象。

from torch.utils.tensorboard import SummaryWriter

&#x9ED8;&#x8BA4;&#x7684;&#x65E5;&#x5FD7;&#x76EE;&#x5F55;&#x662F;'runs' - &#x5728;&#x8FD9;&#x91CC;&#xFF0C;&#x6211;&#x4EEC;&#x4F1A;&#x66F4;&#x52A0;&#x5177;&#x4F53;
writer = SummaryWriter('runs/fashion_mnist_experiment_1')

注意，此行创建了 runs/fashion_mnist_experiment_1文件夹。

写入TensorBoard

现在，让我们把一个图片写入TensorBoard – 具体来说，a grid – using make_grid。

&#x83B7;&#x53D6;&#x4E00;&#x4E9B;&#x968F;&#x673A;&#x7684;&#x8BAD;&#x7EC3;&#x6837;&#x672C;
dataiter = iter(trainloader)
images, labels = dataiter.next()

&#x521B;&#x5EFA;&#x56FE;&#x7247;&#x7F51;&#x683C;
img_grid = torchvision.utils.make_grid(images)

show images
matplotlib_imshow(img_grid, one_channel=True)

&#x5199;&#x5165;TensorBoard
writer.add_image('four_fashion_mnist_images', img_grid)

运行:

tensorboard --logdir=runs

从命令行中导航到http://localhost:6006，应该会显示以下内容：

现在，你知道如何使用TensorBoard了！但是对于该例，Jupyter Notebook也可以做，TensorBoard真正擅长的是创建可交互的可视化界面。我们将在接下来展示其中一个，并在教程最后再介绍几个。

使用TensorBoard检查模型

TensorBoard的一个强大的功能是可视化复杂的模型结构。让我们可视化我们构建的模型

writer.add_graph(net, images)
writer.close()

现在刷新TensorBoard，你会看到’Graphs’ tab：

双击’Net’展开，查看构成模型的哥哥操作的详细视图。

TensorBoard有一个非常方便的功能，可以在低维空间可视化高维数据，例如图片，我们接下来会介绍这个：

为TensorBoard添加’投影’

我们可以通过add_embedding可视化高维数据的低维表示。

&#x8F85;&#x52A9;&#x51FD;&#x6570;
def selec_n_random(data, labels, n=100):
    '''
    &#x4ECE;dataset&#x4E2D;&#x9009;&#x62E9;n&#x4E2A;&#x968F;&#x673A;&#x7684;&#x6570;&#x636E;&#x70B9;&#x53CA;&#x5176;&#x6807;&#x7B7E;
    '''
    # assert&#x7528;&#x4E8E;&#x5224;&#x65AD;&#x4E00;&#x4E2A;&#x8868;&#x8FBE;&#x5F0F;&#xFF0C;&#x5728;&#x4E3A;True&#x65F6;&#xFF0C;&#x6B63;&#x5E38;&#x8FD0;&#x884C;&#xFF0C;&#x4E3A;False&#x65F6;&#x89E6;&#x53D1;&#x5F02;&#x5E38;&#xFF1A;AssertionError&#x3002;
    assert len(data) == len(labels)

    perm = torch.randperm(len(data)) # &#x5C06;0~n-1(&#x5305;&#x62EC;0&#x548C;n-1)&#x6253;&#x4E71;&#x540E;&#x83B7;&#x5F97;&#x7684;&#x6570;&#x5B57;&#x5E8F;&#x5217;
    return data[perm][:n], labels[perm][:n]

&#x9009;&#x62E9;&#x968F;&#x673A;&#x56FE;&#x7247;&#x53CA;&#x5176;&#x6807;&#x7B7E;&#x7D22;&#x5F15;
images, labels = select_n_random(trainset.data, trainset.targets)

&#x83B7;&#x5F97;&#x6BCF;&#x4E00;&#x4E2A;&#x56FE;&#x7247;&#x7684;&#x7C7B;&#x522B;&#x6807;&#x7B7E;
class_labels = [classes[lab] for lab in labels]

&#x65E5;&#x5FD7;&#x5D4C;&#x5165;
features = images.view(-1, 28 * 28)
writer.add_embedding(features,
                    metadata=class_labels,
                    label_img = images.unsqueeze(1))
writer.close()

此时，在TensorBoard的’Projector’，你会看到这100个图片，每个都是784维，被投影到3维度空间。而且，这是可交互的：你可以点击和拖拽来翻转这三个维度的投影。最后，一些易于可视化的手段：选择左上角的’color:label’，还有启用’夜间模式’，这将使图像更易查看，因为它们的背景是白色的。

现在，我们已经彻底检查了我们的数据，让我们从训练开始，展示TensorBoard如何让跟踪模型训练和验证更清晰。

使用TensorBoard跟踪模型

在之前的例子中，我们每2000次迭代 _打印_模型的运行loss。现在，我们将把运行loss记录到TensorBoard，并通过 plot_classes_preds函数查看模型预测。

&#x8F85;&#x52A9;&#x51FD;&#x6570;

def images_to_probs(net, images):
    '''
    &#x4ECE;&#x4E00;&#x4E2A;&#x8BAD;&#x7EC3;&#x540E;&#x7684;&#x6A21;&#x578B;&#x548C;&#x4E00;&#x7CFB;&#x5217;&#x56FE;&#x7247;&#x751F;&#x6210;predictions&#x53CA;&#x5BF9;&#x5E94;&#x7684;probabilities
    '''
    output = net(images)
    # &#x5C06;&#x8F93;&#x51FA;&#x7684;probabilities&#x8F6C;&#x6362;&#x4E3A;&#x9884;&#x6D4B;&#x7684;&#x7C7B;&#x522B;
    _, preds_tensor = torch.max(output, 1) # preds_tensor&#x662F;&#x6700;&#x5927;&#x503C;&#x7684;&#x7D22;&#x5F15;
    preds = np.squeeze(preds_tensor.numpy())
    # softmax&#x5C06;&#x7F51;&#x7EDC;&#x8F93;&#x51FA;&#x503C;&#x6620;&#x5C04;&#x5230;(0, 1)
    return preds, [F.softmax(el, dim=0)[i].item() for i, el in zip(preds, output)]

def plot_classes_preds(net, images, labels):
    '''
    &#x4F7F;&#x7528;&#x8BAD;&#x7EC3;&#x540E;&#x7684;&#x7F51;&#x7EDC;&#x751F;&#x6210;matplotlib&#x56FE;&#x7247;&#xFF0C;&#x4EE5;&#x53CA;1&#x4E2A;batch&#x7684;&#x56FE;&#x7247;&#x548C;&#x6807;&#x7B7E;&#xFF0C;&#x663E;&#x793A;&#x7F51;&#x7EDC;&#x6700;&#x9AD8;&#x7684;&#x9884;&#x6D4B;&#x53CA;&#x6982;&#x7387;&#xFF0C;&#x4EE5;&#x53CA;&#x5B9E;&#x9645;
    &#x6807;&#x7B7E;&#xFF0C;&#x6839;&#x636E;&#x9884;&#x6D4B;&#x662F;&#x5426;&#x6B63;&#x786E;&#x4E3A;&#x8BE5;&#x4FE1;&#x606F;&#x7740;&#x8272;&#x3002;&#x4F7F;&#x7528;'images_to_probs'&#x51FD;&#x6570;&#x3002;
    '''
    preds, probs = images_to_probs(net, images)
    # &#x7ED8;&#x5236;batch&#x4E2D;&#x7684;&#x56FE;&#x7247;&#x3001;&#x9884;&#x6D4B;&#x548C;&#x771F;&#x503C;
    fig = plt.figure(figsize=(12, 48))
    for idx in np.arange(4):
        ax = fig.add_subplot(1, 4, idx+1, xticks=[], yticks=[])
        matplotlib_imshow(images[idx], one_channel=True)
        ax.set_title("{0}, {1:.1f}%\n(label: {2})".format(
              classes[preds[idx]],
              probs[idx] * 100.0,
              classes[labels[idx]]),
                      color=('green' if preds[idx]==labels[idx].item() else 'red'))
    return fig

最后，让我们使用与之前教程中相同的训练代码训练模型，但是每1000batches将结果写入TensorBoard而不是打印到控制台；可以通过add_scalar。

此外，训练时，我们将生成图片来展示模型的预测与该批次中包含的四张图片的实际结果。

running_loss = 0.0
for epoch in range(1): # &#x904D;&#x5386;&#x6570;&#x636E;&#x96C6;&#x7684;&#x6B21;&#x6570;

    for i, data in enumerate(trainloader, 0):
        # &#x83B7;&#x5F97;&#x8F93;&#x5165;&#xFF1B;data&#x662F;&#x4E00;&#x4E2A;[inputs, labels]&#x7684;&#x5217;&#x8868;
        inputs, labels = data

        # &#x5C06;&#x68AF;&#x5EA6;&#x7F6E;&#x96F6;
        optimizer.zero_grad()

        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 1000 == 999: # &#x6BCF;1000 mini-batche
            # &#x8BB0;&#x5F55;running_loss
            writer.add_scalar('training loss',
                            running_loss / 1000,
                            epoch * len(trainloader) + i) # &#x7B2C;&#x4E09;&#x4E2A;&#x53C2;&#x6570;&#x662F;&#x6B65;&#x503C;&#xFF08;&#x53EF;&#x7406;&#x89E3;&#x4E3A;X&#x8F74;&#xFF09;
            # &#x8BB0;&#x5F55;&#x4E00;&#x4E2A;Matplotlib&#x56FE;&#x7247;&#xFF0C;&#x5728;&#x548C;&#x4E00;&#x4E2A;&#x968F;&#x673A;&#x7684;mini-batch&#x4E0A;&#x5C55;&#x793A;&#x6A21;&#x578B;&#x7684;&#x9884;&#x6D4B;
            writer.add_figure('predictions vs. actuals',
                            plot_classes_preds(net, inputs, labels),
                            global_step=epoch * len(trainloader) + i)
            running_loss = 0.0
print('Finished Training')

现在你可以在scalars tab看到训练15000次的运行loss被绘制出来了。

此外，还可以看到模型在随机的batches上通过学习得到预测。查看’Images’ tab 并在’predictions vs. actual’中向下滚动可以看到查看此内容，这表明，例如，经过3000次训练迭代，该模型已经能够区分视觉上不同的类别，例如衬衫、运动鞋和外套，尽管它不像之后的训练那么自信：

在之前的教程中，我们看到了模型训练后在每个类别上的准确率，现在，我们将用TensorBoard为每类绘制precision-recall曲线（关于P-R曲线）。

使用TensorBoard评估训练模型

1. &#x83B7;&#x53D6;test_size&#x7684;&#x5177;&#x6709;x&#x4E2A;num_classes Tensor&#x7684;&#x6982;&#x7387;&#x503C;&#x9884;&#x6D4B;
2. &#x83B7;&#x5F97;test_zie Tensor&#x7684;&#x9884;&#x6D4B;
class_probs = []
class_label = []
with torch.no_grad():
    for data in testloader:
        images, labels = data
        output = net(images)
        class_probs_batch = [F.softmax(el, dim=0) for el in output]

        class_probs.append(class_probs_batch)
        class_label.append(labels)

test_probs = torch.cat([torch.stack(batch) for batch in class_probs])
test_label = torch.cat(class_label)

&#x8F85;&#x52A9;&#x51FD;&#x6570;
def add_pr_curve_tensorboard(class_idx, test_probs, test_label, globa_step=0):
    '''
    &#x63A5;&#x53D7;&#x4ECE;0&#x5230;9&#x7684;&#x2018;class_index&#x2019;&#x5E76;&#x7ED8;&#x5236;&#x76F8;&#x5E94;&#x7684;p-r&#x66F2;&#x7EBF;
    '''
    tensorboard_truth = test_label == class_index
    tensorboard_probs = test_probs[:, class_index]

    writer.add_pr_curve(classes[class_index],
                        tensorboard_truth,
                        tensorboard_probs,
                        global_step=global_step)
    writer.close()

&#x7ED8;&#x5236;&#x6240;&#x6709;&#x7684;pr&#x66F2;&#x7EBF;
for i in range(len(classes)):
    add_pr_curve_tensorboard(i, test_probs, test_label)

现在，你会看到’PR CURVES’包含了每一类别的pr曲线，细看之后你会发现，在一些类，模型几乎拥有曲线下100%的面积，而其它类很低：

这是对TensorBoard和PyTorch与其集成的介绍。当然，你可以在Jupyter Notebook中执行TensorBoard可做的所有事情，但TensorBoard默认可获得交互的视觉效果。

Original: https://www.cnblogs.com/DeepRS/p/15871843.html
Author: Deep_RS
Title: 利用Tensorboard可视化模型、数据和训练过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/610572/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[Git系列] 前言

Git 简介 Git 是一个重视速度的分布式版本控制和代码管理系统，最初是由 Linus Torvalds 为开发 Linux 内核而设计并开发的，是一款遵循二代 GUN 协议的免…

Linux 2023年5月27日
00130
bash是什么？

–解释器，启动器 –解释器：用户交互输入如vim 文本文件输入！/bin/bash *!/usr/bin/python bash/sh f…

Linux 2023年5月27日
0074
PHP 通过两个日期计算年龄

参数：$birth_year：出生年份；$birth_month：出生月份；$birth_day：出生日 function getAgeByBirth($birth_year,$b…

Linux 2023年6月7日
0089
jenkins使用shell脚本执行nohup java -jar包失败

一、问题通过jenkins执行shell脚本时，脚本中是通过nohup java -jar &的方式启动，显示执行成功，但是服务却没启动,脚本如下： #! /bin/ba…

Linux 2023年5月28日
00164
Redis入门讲解（介绍、安装、常用命令）

Redis入门讲解（介绍、安装、常用命令） Redis是非关系型数据库关系型数据库关系型数据库是采用了关系模型来组织数据的数据库，以行和列的形式存储数据，由二维表及其之间的关系…

Linux 2023年6月6日
0095
Python 中 map() zip() list() 函数的介绍

map() map(function , iterable, ….) : 依次将函数function作用在可迭代的list上，并返回对应的函数返回值，组成新的list(…

Linux 2023年6月7日
0095
VS2015中GLAUX库的链接问题

最近学习OpenGL，照着例子写了个程序，用到了GLAUX库。 #include #pragma comment(lib, "glaux") 在程序中加了这两句…

Linux 2023年6月14日
0082
Redis 通过 RDB 方式进行数据备份与还原

Redis 通过 RDB 方式进行数据备份与还原 Intro 有的时候我们需要对 Redis 的数据进行迁移，今天介绍一下通过 RDB（快照）文件进行 Redis 数据的备份和还原…

Linux 2023年5月28日
00150
Logback 日志框架

Logback 是由 Log4j 创始人设计的又一个开源日志组件。作为流行的 Log4j 项目的继承者，在 log4j 1.x 停止的地方接手。其架构非常通用，可以在不同的情况下应…

Linux 2023年6月8日
0086
Elasticsearch7.X 安装（CentOS7）

需要Java环境最低1.8起步 Elasticsearch时隔三年出来了8.0版本，最低需要JDK17 一、获取Elasticsearch7.x安装包获取链接 Elastics…

Linux 2023年6月13日
00104
解决端口被占用问题

在 Linux 里查看端口被哪个进程占用（以Apache服务80端口为例，其余的端口一样方法处理） [root@localhost /]# lsof -i:80 #查看进程 COM…

Linux 2023年6月7日
00126
docker 安装redis

安装docker https://www.cnblogs.com/ximensama/p/14903105.html 安装redis https://www.cnblogs.com…

Linux 2023年5月28日
0082
SpringBoot-MVC自动配置原理

MVC自动配置原理 5.1 官网阅读在进行项目编写前，我们还需要知道一个东西，就是SpringBoot对我们的SpringMVC还做了哪些配置，包括如何扩展，如何定制。只有把这…

Linux 2023年6月14日
0092
python3安装pyhook3遇到的问题

一、解决办法：安装好：使用C++的桌面开发即可完成。打开官方网址：Visual Studio: 面向软件开发人员和 Teams 的 IDE 和代码编辑器 (microsoft….

Linux 2023年6月13日
0094
phpcms v9全站点击量排行代码

前台： {pc:content action=”sitehits” siteid=”1″ num=”10″ …

Linux 2023年6月13日
0068
007 Linux 命令三剑客之-awk

Linux 命令三剑客，sed、grep、awk。 sed：擅长数据修改。 grep：擅长数据查找定位。 awk：擅长数据切片，数据格式化，功能最复杂。 awk 更适合格式化文本，…

Linux 2023年5月27日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30