TensorBoard Projector 简易指南

2023年5月25日上午2:04 • 人工智能 • 阅读 136

原文发表在 TensorBoard Projector 简易指南 – Alan Lee。

TensorBoard（TB）是一个非常棒的模型可视化工具，早期我也写过一篇文章来详细介绍各个面板。

不过士别三日，当刮目相待。现在的 TB 和那时相比变化太多了，增加了许多功能面板，绝大部分我都还没怎么用过。其中最吸引我的面板之一就是 Projector，虽然我现在工作中并不怎么用到。

现在终于抽出时间，来完整体验并写一篇 TensorBoard Projector（TBP）的简易教程。

本文将会从原始文本出发（中文），经过训练 embedding、生成所需文件等步骤，一步一步，最终使用 TBP 来可视化 embedding，并解决中文标签不能显示的问题。

我们先来看下最终效果：

虽然说现在 BERT 等预训练模型大行其道，但我还是想从更”复古”的词向量出发。当然如果你想使用 BERT 来生成 embedding，也是完全没有问题的，框架是相同的。

此外，这个过程和你所使用的库无关，无论你是 Numpy、Scipy 还是 TensorFlow、PyTorch，只要能够得到 embedding 向量，那就都没有问题。

使用 TBP 可视化 embedding 的基本逻辑是很简单的：

得到一些词及其 embedding。
将他们按照 TBP 认可的对应关系放到文件中。
TBP 读取文件并可视化。

因此，我们需要以下文件：

[En]

Accordingly, we need the following documents:

原始文本和 embedding 模型：用以得到词及其 embedding。
metadata.tsv、 tensor.tsv 和 sprite.jpg：分别用于存放词、embedding 和词对应的图片（当然也可以是 PNG），最后一个用于解决中文标签不能显示的问题。
projector_config.pbtxt：用于告诉 TBP 上述文件的位置以及其他配置。

让我们逐步了解如何获取这些文件。

[En]

Let’s take a step-by-step look at how to get these files.

; 词及词向量

对原始文本使用 spacy 分句，共得到约 38 万句子。然后使用 jieba 和自定义词典进行分词，得到 tokenized_sents.txt，该文件格式是一行一个分词后的句子，词之间空格分隔。词向量使用 gensim 的fasttext模型训练得到，维度 300。为减少词的数量，去掉停用词。


model = FastText(vector_size=300, window=5, min_count=10)
model.build_vocab(corpus_file='tokenized_sents.txt')
model.train(corpus_file='tokenized_sents.txt', total_examples=model.corpus_count, epochs=10, total_words=model.corpus_total_words)
model.save('fasttext.model')

metadata.tsv 和 tensor.tsv

metadata.tsv 的常见格式有两种：没有表头，只有一列；有表头，有两列。前者（格式 1）就是 NLP 中常见的 vocab.txt 的格式，一行一个词。后者（格式 2）的两列一般表示 index 和 label。label 就表示该样本所属的标签，一般多见于分类数据集。实际上格式 1 是格式 2 的特例，相当于默认认为其行号就是 index，行内容就是 label。

metadata.tsv 也可以有多列，多出来的列可以用来表示其他属性信息。

tensor.tsv 用于存储与 metadata.tsv 对应的 embeddings。顺序必须一致，即 metadata.tsv 中第 i 行的词，其 embedding 也必须是 tensor.tsv 中的第 i 行。embedding 中的数字用 \t 分隔。

接上，我们得到模型后，使用其得到的 vocab 及对应的 embedding 来生成这两个文件：

stopwords = Path("hit_stopwords.txt").read_text(encoding="utf8").splitlines()
model = FastText.load("fasttext.model")
words = [word for word in model.wv.key_to_index.keys() if word not in stopwords]
logdir = Path('projector/')

metadata_filename = 'metadata.tsv'
lines = ["index\tlable"]
for i, word in enumerate(words):
    lines.append(f"{i}\t{word}")
logdir.joinpath(metadata_filename).write_text("\n".join(lines), encoding="utf8")

tensor_filename = 'tensor.tsv'
lines = ["\t".join(map(str, model.wv[word])) for word in words]
logdir.joinpath(tensor_filename).write_text("\n".join(lines), encoding="utf8")

sprite.jpg

正如开头给出的效果图一样，图中每个点都是有一个 label 的，这个 label 就是词。如果我们直接这样启动 tensorboard，会看到如下页面：

Projector 默认页面，不显示 3D 标签

但启用 3D 标签模式的话，我们将会看到下图所示的样子：

点击左上角的”A”开启 3D 标签模式后

我们可以看到，所有的中文单词都不见了，只剩下数字字母和其他标签。

[En]

We can see that all the Chinese words are gone, only numeric letters and other labels are left.

这是因为 tensorboard 目前还不支持所有 Unicode 字符标签，只支持 ascii 字符。

BUT！关闭 3D 标签模式后，如果你点击其中一个点，你会惊奇地发现又能显示中文标签了：
{% image https://s2.loli.net/2021/12/18/ft6WZmqrhuUdXTP.png “中文标签又回来了” %}

一个 workaround 是将汉字转成图片，用图片来作为 label，就像官方给出的 mnist 例子一样：

官方 Mnist 例子

但是由于每个词所含字的数量都不同，同时又需要尽量让词铺满整个图片，所以不同图片中字的 fontsize 都是不同的，需要视情况调整，这是一个迭代的过程。而转图片我们可以借助 PIL 来完成：

def text2image(text, imgfile):
    image = Image.new("RGB", (50, 50), color=(255, 255, 255))
    draw = ImageDraw.Draw(image)
    fontsize = 1
    fontpath = "simhei.ttf"

    img_fraction = 0.9

    font = ImageFont.truetype(fontpath, fontsize)
    while (font.getsize(text)[0] < img_fraction * image.size[0]) and (
        font.getsize(text)[1] < img_fraction * image.size[1]
    ):

        fontsize += 1
        font = ImageFont.truetype(fontpath, fontsize)

    fontsize -= 1
    font = ImageFont.truetype(fontpath, fontsize)

    draw.text((0, 0), text, font=font, fill=(0, 0, 0))
    image.save(imgfile)

当我们把所有词都转成图片后，再将这些图片，按照一定规则拼接到一起，最终形成的这么一个大图，就是所谓的 sprite.jpg。

Sprite Image

Mnist 例子中的 sprite image

那么，拼接的规则是什么呢？

[En]

So what are the rules for splicing?

sprite.jpg 必须是正方形，每个小图也最好是正方形，意味着行列上的小图数量必须是相等的，而且 tensorboard 读这个 sprite 的时候是按照行优先的顺序读的。所以假设你有 8 张小图，那么最终的摆放顺序就是下面这样：

8 张小图时的摆放顺序

最后一帧是空白的，也就是全白的。

[En]

The last frame is blank, that is, all white.

当然，也有可能最后一行是空白的，例如，如果您有五个小图像，那么如果您希望每行和列上的小图像数量相同，那么每行和列上必须有3个小图像：

[En]

Of course, it is also possible that the last row is blank, for example, if you have five mini-images, then if you want the number of small images on each row and column to be the same, then there must be 3 small images on each row and column:

5 张小图时的摆放顺序

这样一来，不仅第二行的最后一栏是空白的，第三行的整行也是空白的。

[En]

In this way, not only the last box of the second line is blank, but also the whole line of the third line is blank.

所以总结来说，假设你有 n n n 张小图，那么每行每列上小图的数量就是 ⌈ n ⌉ \lceil \sqrt n \rceil ⌈n ⌉，即根号 n n n 然后上取整。

具体代码如下：

def text2image(text, imgfile):
    image = Image.new("RGB", (50, 50), color=(255, 255, 255))
    draw = ImageDraw.Draw(image)
    fontsize = 1
    fontpath = "simhei.ttf"

    img_fraction = 0.9

    font = ImageFont.truetype(fontpath, fontsize)
    while (font.getsize(text)[0] < img_fraction * image.size[0]) and (
        font.getsize(text)[1] < img_fraction * image.size[1]
    ):

        fontsize += 1
        font = ImageFont.truetype(fontpath, fontsize)

    fontsize -= 1
    font = ImageFont.truetype(fontpath, fontsize)

    draw.text((0, 0), text, font=font, fill=(0, 0, 0))
    image.save(imgfile)

projector_config.pbtxt

在得到了 metadata.tsv 、 tensor.tsv 和 sprite.jpg 后，我们还需要告诉 tensorboard 这些文件的位置和每个小图的维度，所以我们需要一个 .pbtxt 文件来指定这些信息。

我们可以使用以下程序生成此文件：

[En]

We can use the following program to generate this file:

from tensorboard.plugins import projector

config = projector.ProjectorConfig()
embedding = config.embeddings.add()
embedding.metadata_path = metadata_filename
embedding.tensor_path = tensor_filename
embedding.sprite.image_path = sprite_filename
embedding.sprite.single_image_dim.extend([unit_dim, unit_dim])
projector.visualize_embeddings(logdir, config)

然后就会得到一个名为 projector_config.pbtxt 的文件，文件内容如下：

embeddings {
  metadata_path: "metadata.tsv"
  sprite {
    image_path: "sprite.jpg"
    single_image_dim: 50
    single_image_dim: 50
  }
  tensor_path: "tensor.tsv"
}

当然，您也可以根据此格式手动创建此文件。

[En]

Of course, you can also create this file manually according to this format.

启动

万事俱备，只欠东风。

现在我们终于可以启动 tensorboard 了：

$ tensorboard --logdir=projector/

projector/ 就是你上面指定的 logdir 。

然后根据提示在浏览器打开 http://localhost:6006/#projector 就可以看到页面了，你可以在这里尝试不同降维算法的效果，也可以点击或搜索图上的词来查看其相似词，大致评估下 embedding 的效果。

“捷克共和国”的近义词

扩展

Embedding Projector 中的点不仅仅可以是图像、词，理论上只要是可以 embedding 的东西，就可以显示。而且你懂的，万物皆可 embedding……😂

Reference

END

Original: https://blog.csdn.net/u010099080/article/details/122394146
Author: secsilm
Title: TensorBoard Projector 简易指南

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511432/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

HiveSQL源码之语法词法编译文件解析一文详解

目录前言一、Hive SQL编译流程二、Antrl 三、ANTLRWorks 参阅前言 工欲善&#…

人工智能 2023年7月14日
0076
MATLAB学习（一）——APP的学习笔记

1、写在前面这是一篇MATLAB学习笔记，不断更新。 2、MATLAB基本操作 2.1 函数 Disp函数：打印算子示例： Disp(pathname) Class函数：功能…

人工智能 2023年6月20日
00101
基于阈值的7种图像分割方法以及Python实现

阈值分割是根据图像的灰度特征按照设定的阈值将图像分割成不同的子区域。简单的理解就是先将图像进行灰度处理，然后根据灰度值和设定的灰度范围将图像灰度分类。比如0-128的是一类，129…

人工智能 2023年7月4日
0095
DataFrame遍历所有元素

pandas DataFrame的 applymap() 函数可以对DataFrame里的每个值进行处理,然后返回一个新的DataFrame: import pandas as p…

人工智能 2023年6月2日
0084
DataFrame数据处理

文章目录 * – 数据预处理 – 数据查询 – 数据修改 – 数据排序 – 数据合并数据预处理数据分析的第一步是提高…

人工智能 2023年7月7日
0064
Python作业题：组合数据类型（带有答案和详细分析过程）

本次作业涉及到的知识点获取变量地址的id函数（1 Python列表的浅复制和深复制（1 字符串join函数的使用（2 列表的遍历（3 列表元素的排序（4 列表的常用方法（5 作业…

人工智能 2023年7月30日
0065
nuScenes 数据集

nuScenes数据集 1. nuScenes 简要介绍 * 1.1 A look at the dataset – 1.1.0 标注之间的关系 1.1.1 scene…

人工智能 2023年6月10日
0076
pandas 作图统计_pandas 之 groupby

groupby 的 MutilIndex df.reset_index() df.index.get_level_values(‘abc’) / df.in…

人工智能 2023年7月8日
0066
9.7科学计算与数据分析基础试题

目录 1.创建一个3行3列的nadrray数组，数组元素为1，2，3，，，9这九个数。编写程序，计算输出其所有的元素的和.每行的均值以及每列的均值 2.正则化一个5行5列的随机矩阵…

人工智能 2023年7月16日
0060
OpenCV 并行计算函数 parallel_for_ 的使用

摘录：在使用 OpenCV 的过程中，对图片的处理计算量还是很大的，所以在实施运行的程序中如何高效的计算会节省很多时间。现有的方法有很多，如 OpenMp, TBB, OpenC…

人工智能 2023年6月22日
0089
Scala005–Scala中的数据结构【集合】之数组

Scala中的数据结构和Java中一样，都有数组，列表，集合，映射。在Scala中与Java不同的是数组可以有可变数组，而不是一旦定义就不可以进行更改。我们来认识数组，并使用相应的…

人工智能 2023年6月27日
0078
上采样、下采样区别及作用

前言：真的一直忘记这两个概念，现在特地用自己的话来总结总结参考下采样–>> 76 76->38_38->19 _19 –>>缩小图像…

人工智能 2023年7月18日
00118
【mmdetection】— 可视化 NMS 前后的预测框

1.NMS NMS(Non-Maximum Suppression)，即非极大值抑制，是 anchor based 目标检测算法中必不可少的一步，其目的是抑制掉指向同一个目标的其他…

人工智能 2023年7月12日
0063
1.Doris概述

1.概述 Apache Doris是一个现代化的基于MPP （大规模并行处理）技术的分析型数据库产品。简单来说，MPP是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成…

人工智能 2023年6月11日
0081
用python实现主成分分析（PCA）

用python实现主成分分析（PCA） python应用实例：如何用python实现主成分分析 * 背景 iris数据集简介算法的主要步骤代码实现查看各特征值的贡献率 pyt…

人工智能 2023年6月15日
0080
Pytorch基础（一）- pytorch介绍，回归和分类问题

目录 Pytorch发展及特点简单回归问题手写数字识别 Pytorch发展及特点 pytorch在torch7上进行开发的，2018年发布了第一个稳定的版本。google、Te…

人工智能 2023年7月2日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

TensorBoard Projector 简易指南

; 词及词向量

metadata.tsv 和 tensor.tsv

sprite.jpg

projector_config.pbtxt

启动

扩展

Reference

END

大家都在看