【Pytorch】Tensorboard用法：标量曲线图、直方图、模型结构图

2023年7月24日下午2:41 • 人工智能 • 阅读 59

Pytorch官方文档：https://pytorch.org/docs/stable/tensorboard.html
Tensorflow的官方文档：https://www.tensorflow.org/tensorboard

在机器学习中，我们一般需要记录模型训练的评估指标、参数等等。TensorBoard就是一个功能极为强大的机器学习实时检测并可视化的工具。它可以实时跟踪并可视化loss、acc等标量，可以使用直方图、分布图来展示权重和梯度分布的变化，也可以展示出模型的架构图，还可以将将嵌入向量投影到较低维度的空间从而可视化等等。

起源

TensorBoard最早是TensorFlow 的可视化工具包。早期PyTorch是不支持Tensorboard的，于是lanpa大佬就开发了一个完全支持PyTorch的Tensorboard工具包TensorboardX。后来在PyTorch 1.1.0版本，官方与TensoBoard合作加入了对Tensorboard的支持接口torch.utils.tensorboard，而且使用方法和TensorboardX基本一致。相比Visdom，Tensorboard功能强大，用户多。

安装&导入

安装

pip install tensorboard

导入

from torch.utils.tensorboard import SummaryWriter

使用方法

【SCALARS】记录标量信息

只要是标量信息，都可以使用SCALARS来记录，比如：loss、accuracy、mse、F-score、动态学习率、dropout的保留率、隐藏层中的参数信息（如：最值、均值、方差等等）等。

使用方法：
将下面的关键代码插入到你的机器学习代码中相应的位置即可。


writer = SummaryWriter(log_dir='./log/')

for epoch in range(10):
    train_loss = train_one_epoch(epoch)
    val_loss, rmse = eval_model(epoch)

    writer.add_scalar(tag='TrainLoss', scalar_value=train_loss, global_step=epoch)
    writer.add_scalars(main_tag='Metrics', tag_scalar_dict={'ValLoss':val_loss,
                                                            'RMSE': rmse}, global_step=epoch)
writer.close()

代码说明：

【关键代码1】初始化一个writer， log_dir是日志文件的保存目录，默认是 ./runs/。
【关键代码2】记录这一刻的train_loss标量值， tag是数据标识符， scalar_value是要记录的标量值， global_step是第几步。
【关键代码3】和代码3功能一样，不过它可以同时记录多个标量值。 main_tag是父标签， tag_scalar_dict是个字典 {子标签: 要记录的标量值}， global_step是第几步。
【关键代码4】关闭writer。也可以使用 with SummaryWriter(log_dir='./log/') as writer:类似python的文件操作。

运行你的机器学习代码之后，在当前目录下 shift+鼠标右键打开命令行输入下面的命令并回车（ ./log/是你在代码里写的日志保存的目录）：

tensorboard --logdir ./log/

打开浏览器，输入命令行中提示的地址（ http://localhost:6006/），回车，效果图如下：

使用右上角刷新功能可以实时查看训练情况。

子图分组

当记录了很多标量值信息后，会出现图像大量堆叠导致UI 混乱不美观。可以使用分组功能，使用方式也非常简单，只需要将参数 tag或者 main_tag分层命名即可，代码如下：

from torch.utils.tensorboard import SummaryWriter
import numpy as np

with SummaryWriter() as writer:
    for n_iter in range(100):
        writer.add_scalar('Loss/train', np.random.random(), n_iter)
        writer.add_scalar('Loss/test', np.random.random(), n_iter)
        writer.add_scalar('Accuracy/train', np.random.random(), n_iter)
        writer.add_scalar('Accuracy/test', np.random.random(), n_iter)

效果图：

至此，对于一些简单的机器学习任务，这些工具就已经够用了。下面开始进阶操作。

【HISTOGRAM】记录分布的信息

histogram（直方图）就是用于显示 Tensor 的分布是如何随时间变化而变化。通过显示大量不同时间点的直方图来可视化 tensor 的变化。一般用来记录Tensor的分布变化情况（如：梯度、权重、神经元输出等），比如查看神经元输出激活之前的分布和激活之后的分布变化。

使用方法：


writer = SummaryWriter(log_dir='./log')
for epoch in range(100):
    train_loss = train_one_epoch(epoch)
    val_loss, rmse = eval_model(epoch)

    for name, param in model.named_parameters():
        writer.add_histogram(tag=name+'_grad', values=param.grad, global_step=epoch)
        writer.add_histogram(tag=name+'_data', values=param.data, global_step=epoch)

writer.close()

代码说明：

add_histogram的用法和上面的一样， tag是数据标识符， values是要记录的数据， global_step是第几步。
注意： values传入的是多维数组（Tensor或者array）而不是标量，如果传入的是高维数组，会将其先扁平到一维，再分桶统计成直方图。统计方法与numpy.histogram类似。

执行上述代码后–>命令行 tensorboard --logdir ./log/–>浏览器 http://localhost:6006/–>点开【HISTOGRAMS】选项卡，效果如下：

可以看到相比之前多了两个选项卡【HISTOGRAMS】和【DISTRIBUTIONS】，其实这两个都是用来查看histogram统计结果的，只不过前者以直方形式显示统计结果，后者提供更为抽象的统计信息。

在选项卡【HISTOGRAMS】中提供了两种显示模式： OVERLAY和 OFFSET（左上角），可以看到在不同视角下的直方图分布情况。

下面解读一下两种图的含义：

; 【HISTOGRAMS】

在选项卡【HISTOGRAMS】中点开名为 dec_embedding.feature_embedding.Embed.weight的图像窗口后，如下所示：

可以看到这张图是展示了该网络层的梯度分布图像。梯度就是个向量，可以看成数组，在统计时会把所有的梯度扁平成一个一维数组，然后用直方图统计起来。

横轴表示这些梯度中元素值的分布范围，纵轴表示第几轮。
*当把鼠标放在图上时，会出现的一条黑线和数字点，如上图这个黑线就表示第30轮的时候统计的直方图，这个黑色数字点表示第30轮时有922个梯度元素值等于0.0000175。

从上图可以得以下信息：

1、大约在第15轮之后，梯度中元素值的分布就不再改变了，且都集中在0附近。

2、结合【SCALARS】中loss曲线一直保持不变，说明模型可能遇到了训练瓶颈或者鞍点，或者是网络退化？

3、如有错误或者补充，望指出。

【DISTRIBUTIONS】

【DISTRIBUTIONS】的图和【HISTOGRAMS】图显示的数据源都是相同的，只是用不同的方式对相同的内容进行展示而已。
在选项卡【DISTRIBUTIONS】中点开名为 dec_embedding.feature_embedding.Embed.weight的图像窗口后，如下图：

横坐标表示第几轮，纵坐标表示梯度中元素值的分布范围。
*不同的颜色表示梯度中元素值在某个区域值出现的频次，颜色越深表示出现的频次越多。

从上图可以看出以下信息：

1、总体来看，梯度中元素值在0附近颜色普遍最深，也就是说在0附近这个区域权重值的取值频次最高。

2、在第15轮之后，梯度值出现频次不再改变且总体出现频次范围变大了，说明很有可能梯度的方向一直在来回改变，梯度的元素值不变，我觉得可能是小幅度的梯度震荡。

3、如有错误或者补充，望指出。

; 【GRAPHS】记录模型架构

【GRAPHS】可以记录模型结构，可视化网络结构及训练流程。

使用方法：


class MyModel(nn.Module):
    def __init__(self, i_f=2, o_f=1):
        super(MyModel, self).__init__()
        self.linear1 = nn.Linear(i_f, 4)
        self.linear2 = nn.Linear(4, o_f)
    def forward(self, x):
        x = self.linear1(x)
        x = nn.functional.relu(x)
        x = self.linear2(x)
        return x
model = MyModel()

writer = SummaryWriter(log_dir='./log')
fake_input = torch.randn(16,2)
writer.add_graph(model=model, input_to_model=fake_input)
writer.close()

代码说明：

直接将 add_graph代码插入到模型实例化后面即可，不过要注意的是，在这之前需要自行创建一个假的输入数据。
参数 model就是你的实例化好的模型，参数 input_to_model就是输入到模型的数据。

效果图如下：

【其他功能】我暂时用不到，以后用到再补充

常见的有：

add_image
add_images
add_figure
add_video
add_audio
add_text
add_embedding
add_pr_curve
add_custom_scalars
add_hparams
add_mesh

具体使用详情看官方文档。

Original: https://blog.csdn.net/qq_38237214/article/details/121118459
Author: Jnchin
Title: 【Pytorch】Tensorboard用法：标量曲线图、直方图、模型结构图

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/712938/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

kaggle房价预测-回归模型

目录 1 项目背景 2 初始数据分析目标值分析特征与目标值相关性变量特征相关性 3 数据预处理目标变量正态分布化异常值处理缺失值处理转换特征保存训练集和测试集 4 …

人工智能 2023年7月4日
0082
Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比

今天看到一篇文章参考：对比不同主流存储格式（csv, feather, jay, h5, parquet, pickle）的读取效率然后我自己也试了一下，感觉发现了&#8221…

人工智能 2023年7月7日
0063
Ubuntu系统下配置PyTorch环境

目录前言步骤一、NVIDIA驱动二、Anaconda安装三、Pytorch安装四、Pycharm安装前言这几天一直研究如何在ubuntu系统下安装Pytorch，中…

人工智能 2023年7月21日
0073
python篇—python 用opencv读取rtsp视频流（二）

python 用opencv读取rtsp视频流（二）经过测试 cv2.VideoCapture 的 read 函数并不能获取实时流的最新帧而是按照内部缓冲区中顺序逐帧的读取，op…

人工智能 2023年6月18日
0063
图神经网络GraphSAGE代码详解

最近在学习图神经网络相关知识，对于直推式的图神经网络，训练代价昂贵，这篇文章主要是介绍一个基于归纳学习的框架 GraphSAGE的代码，旨在训练一个聚合函数，为看不见的节点（新的节…

人工智能 2023年5月28日
00130
mxm智能教育机器人无法智能对话_关于智能语音机器人使用中可能出现的问题

浅谈智能语音机器人使用中的误区 [En] On the misunderstanding in the use of Intelligent Voice Robot 对于一些以销售…

人工智能 2023年5月27日
0075
【论文笔记】An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale (ViT)

【论文笔记】An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale(Visi…

人工智能 2023年5月30日
0087
人工智能导论期末复习合集

人工智能导论期末复习合集 AI导论知识点目录人工智能导论期末复习合集〇、绪论一、知识的概念 * 练习题二、基本搜索 * 2.1 状态空间法 2.2 无信息搜索 &#8211…

人工智能 2023年7月27日
0070
误差反向传播算法在实践中的应用有哪些局限性

误差反向传播算法的应用局限性介绍误差反向传播算法（Error Backpropagation Algorithm）是深度学习中最常用的训练神经网络的方法之一。它通过计算损失函数…

人工智能 2024年1月5日
0048
cuda与torch的安装匹配

此博客主要用于记录个人的问题解决。如果能帮到路过的朋友那再好不过啦。我在某网站的评论所分享的链接下载的torch，似乎是阿里的源。是1.10.1的torch。 pip show…

人工智能 2023年7月26日
0059
ubuntu20.04安装VITIS_HLS2021.2配置OPENCV4.4和VITIS_LIBRARIES(详细版)

一、引言大家好，今天给研友们配置一下这个VITIS_HLS，因这其中经历太多的坎坷，为让大家原理配置环境的烦扰，本人出个详细版，望大家喜欢二、VITIS的安装我之前的博客已经…

人工智能 2023年5月26日
00130
如何培养真正的数据分析思维？附实践案例

这个问题要拆分成两方面来说。因为不同场景，对于数据分析的需要程度是不同的，需要的能力各不相同。第一种：有一部分人只是需要在一些工作中，分析部分数据，从而指导自己工作，为之后计划…

人工智能 2023年6月11日
0078
卷积神经网络CNN实现mnist手写数字识别

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0064
使用Keras训练Lenet网络来进行手写数字识别

使用Keras训练Lenet网络来进行手写数字识别这篇博客将介绍如何使用Keras训练Lenet网络来进行手写数字识别。 LeNet架构是深度学习中的一项开创性工作，演示了如何训…

人工智能 2023年5月26日
0087
OpenCV提取十字标中心点的几种思路

1. 取边界拟合四线交点取中这个是个人感觉自由度最大的，应该也是可以达到的精度上限最高的，也支持图像的旋转，如果筛选直线的方法得当对于线的相交角度也没特殊要求，但是手动计算量也较…

人工智能 2023年6月19日
00120
NVIDIA JETSON XAVIER NX烧录（emmc版本）

目录 0.前言 1.安装虚拟机 2.安装SDKManager 3.使用SDK Manager开始烧录 4.配置系统 5.开发环境的安装（CUDA） 6.遇到问题记录（如果有其它问题…

人工智能 2023年7月28日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Pytorch】Tensorboard用法：标量曲线图、直方图、模型结构图

【SCALARS】记录标量信息

【HISTOGRAM】记录分布的信息

; 【HISTOGRAMS】

【DISTRIBUTIONS】

; 【GRAPHS】记录模型架构

【其他功能】我暂时用不到，以后用到再补充

大家都在看