深入理解PyTorch中的nn.Embedding

2023年7月28日下午1:15 • 人工智能 • 阅读 67

1.1 语料库（Corpus）

太长不看版： NLP任务所依赖的语言数据称为语料库。

详细介绍版： 语料库（Corpus，复数是Corpora）是组织成数据集的真实文本或音频的集合。此处的真实是指由该语言的母语者制作的文本或音频。语料库可以由从报纸、小说、食谱、广播到电视节目、电影和推文的所有内容组成。在自然语言处理中，语料库包含可用于训练 AI 的文本和语音数据。

1.2 词元（Token）

为简便起见，假设我们的语料库只有三个英文句子并且均已经过处理（全部小写+去掉标点符号）：

corpus = ["he is an old worker", "english is a useful tool", "the cinema is far away"]

我们往往需要将其词元化（tokenize）以成为一个序列，这里只需要简单的 split 即可：

def tokenize(corpus):
    return [sentence.split() for sentence in corpus]

tokens = tokenize(corpus)
print(tokens)

📝 这里我们是以单词级别进行词元化，还可以以字符级别进行词元化。

1.3 词表（Vocabulary）

词表 不重复地包含了语料库中的所有词元，其实现方式十分容易：

vocab = set(sum(tokens, []))
print(vocab)

词表在NLP任务中往往并不是最重要的，我们需要为词表中的每一个单词分配唯一的索引并构建单词到索引的映射： word2idx。这里我们按照单词出现的频率来构建 word2idx。

📝 有些作者也会把 word2idx 当作词表。

from collections import Counter

word2idx = {
    word: idx
    for idx, (word, freq) in enumerate(
        sorted(Counter(sum(tokens, [])).items(), key=lambda x: x[1], reverse=True))
}
print(word2idx)

反过来，我们还可以构建 idx2word：

idx2word = {idx: word for word, idx in word2idx.items()}
print(idx2word)

对于 1.2 节中的 tokens，也可以转化为索引的表示：

encoded_tokens = [[word2idx[token] for token in line] for line in tokens]
print(encoded_tokens)

这种表示方式将在后续讲解 nn.Embedding 时提到。

二、Embedding详解

为什么要embedding？

RNN无法直接处理单词，因此需要通过某种方法把单词变成数字形式的向量才能作为RNN的输入。这种把单词映射到向量空间中的一个向量的做法称为 词嵌入（word embedding），对应的向量称为 词向量（word vector）。

2.1 基础参数

我们首先讲解 nn.Embedding 中的基础参数，了解它的基本用法后，再讲解它的全部参数。

基础参数如下：

nn.Embedding(num_embeddings, embedding_dim)

其中 num_embeddings 是词表的大小，即 len(vocab)； embedding_dim 是词向量的维度。

我们使用第一章节的例子，此时词表大小为 13 13 13，不妨设嵌入后词向量的维度是 3 3 3（即将单词嵌入到三维向量空间中），则 embedding 层应该这样创建：

torch.manual_seed(0)
emb = nn.Embedding(13, 3)

embedding 层中只有一个参数 weight，在创建时它会从 标准正态分布中进行初始化：

print(emb.weight)

这里我们可以把 weight 当作 embedding 层的一个权重。

接下来再来看一下 nn.Embedding 的输入。直观来看，给定一个已经词元化的句子，将其中的单词输入到 embedding 层应该得到相应的词向量。事实上， nn.Embedding 接受的输入并不是词元化后的句子，而是它的索引形式，即第一章节中提到的 encoded_tokens。

nn.Embedding 可以接受 任何形状的张量作为输入，但因为传入的是索引，所以张量中的每个数字都不应超过 len(vocab) - 1，否则就会报错。接下来， nn.Embedding 的作用就像一个 查找表（Lookup Table）一样，通过这些索引在 weight 中查找并返回相应的词向量。

print(emb.weight)

sentence = torch.tensor(encoded_tokens[0])
print(sentence)

print(emb(sentence))

print(emb.weight[sentence] == emb(sentence))

2.2 nn.Embedding 与 nn.Linear 的区别

细心的读者可能已经看出 nn.Embedding 和 nn.Linear 似乎很像，那它们到底有什么区别呢？

回顾 nn.Linear，若不开启 bias，设输入向量为 x x x， nn.Linear.weight 对应的矩阵为 A A A（形状为 hidden_size × input_size），则计算方式为：

y = x A T y=xA^{\text T}y =x A T

其中 x , y x,y x ,y 均为 行向量。

假如 x x x 是one-hot向量，第 i i i 个位置是 1 1 1，那么 y y y 就是 A T A^{\text T}A T 的第 i i i 行。

现给定一个单词 w w w，假设它在 word2idx 中的索引就是 i i i，在 nn.Embedding 中，我们根据这个索引 i i i 去查找 emb.weight 的第 i i i 行。而在 nn.Linear 中，我们则是将这个索引 i i i 编码成一个one-hot向量，再去乘上对应的权重矩阵得到矩阵的第 i i i 行。

请看下例：

torch.manual_seed(0)

vocab_size = 4
embedding_dim = 3
weight = torch.randn(4, 3)

linear_layer = nn.Linear(4, 3, bias=False)
linear_layer.weight.data = weight.T
emb_layer = nn.Embedding(4, 3)
emb_layer.weight.data = weight

idx = torch.tensor(2)
word = torch.tensor([0, 0, 1, 0]).to(torch.float)
print(emb_layer(idx))

print(linear_layer(word))

从中我们可以总结出：

nn.Linear 接受向量作为输入，而 nn.Embedding 则是接受离散的索引作为输入；
nn.Embedding 实际上就是输入为one-hot向量，且不带bias的 nn.Linear。

此外， nn.Linear 在运算过程中做了矩阵乘法，而 nn.Embedding 是直接根据索引查表，因此在该情景下 nn.Embedding 的效率显然更高。

📖 进一步阅读： [Stack Overflow] What is the difference between an Embedding Layer with a bias immediately afterwards and a Linear Layer in PyTorch?

2.3 nn.Embedding 的更新问题

在查阅了PyTorch官方论坛和Stack Overflow的一些帖子后，发现有不少人对 nn.Embedding 中的权重 weight 是怎么更新的感到非常困惑。

💡 nn.Embedding 的权重实际上就是词嵌入本身

事实上， nn.Embedding.weight 在更新的过程中既没有采用 Skip-gram 也没有采用 CBOW。回顾最简单的多层感知机，其中的 nn.Linear.weight 会随着反向传播自动更新。当我们把 nn.Embedding 视为一个特殊的 nn.Linear 后，其更新机制就不难理解了，无非就是按照梯度进行更新罢了。

训练结束后，得到的词嵌入是最适合当前任务的词嵌入，而非像word2vec，GloVe这种更为通用的词嵌入。

当然我们也可以在训练开始之前使用预训练的词嵌入，例如上述提到的word2vec，但此时应该考虑针对当前任务重新训练或进行微调。

假如我们已经使用了预训练的词嵌入并且不想让它在训练过程中自我更新，那么可以尝试冻结梯度，即：

emb.weight.requires_grad = False

📖 进一步阅读：

2.4 全部参数

官方文档：

padding_idx \textcolor{blue}{\text{padding_idx}}padding_idx

我们知道， nn.Embedding 虽然可以接受任意形状的张量作为输入，但绝大多数情况下，其输入的形状为 batch_size × sequence_length， 这要求同一个 batch 中的所有序列的长度相同。

回顾1.2节中的例子，语料库中的三个句子的长度相同（拥有相同的单词个数），但事实上这是博主特意选取的三个句子。现实任务中，很难保证同一个 batch 中的所有句子长度都相同，因此我们需要对那些长度较短的句子进行填充。因为输入到 nn.Embedding 中的都是索引，所以我们也需要用索引进行填充，那使用哪个索引最好呢？

假设语料库为：

corpus = ["he is an old worker", "time tries truth", "better late than never"]
print(word2idx)

print(encoded_tokens)

我们可以在 word2idx 中新增一个词元 <pad></pad>（代表填充词元），并为其分配新的索引：

word2idx[''] = 12

对 encoded_tokens 进行填充：

max_length = max([len(seq) for seq in encoded_tokens])
for i in range(len(encoded_tokens)):
    encoded_tokens[i] += [word2idx['']] * (max_length - len(encoded_tokens[i]))
print(encoded_tokens)

创建 embedding 层并指定 padding_idx：

emb = nn.Embedding(len(word2idx), 3, padding_idx=12)
print(emb.weight)

可以看出填充词元对应的词向量是 零向量，并且在训练过程中填充词元对应的词向量不会进行更新（始终是零向量）。

padding_idx 默认为 None，即不进行填充。

max_norm \textcolor{blue}{\text{max_norm}}max_norm

如果词向量的范数超过了 max_norm，则将其按范数归一化至 max_norm：

w : = max_norm ⋅ w ∥ w ∥ w:=\text{max_norm}\cdot\frac{w}{\Vert w\Vert}w :=max_norm ⋅∥w ∥w

max_norm 默认为 None，即不进行归一化。

norm_type \textcolor{blue}{\text{norm_type}}norm_type

当指定了 max_norm 时， norm_type 决定采用何种范数去计算。默认是2-范数。

scale_grad_by_freq \textcolor{blue}{\text{scale_grad_by_freq}}scale_grad_by_freq

若将该参数设置为 True，则对词向量 w w w 进行更新时，会根据它在一个 batch 中出现的频率对相应的梯度进行缩放：

∂ Loss ∂ w : = 1 frequency ( w ) ⋅ ∂ Loss ∂ w \frac{\partial \text{Loss}}{\partial w}:=\frac{1}{\text{frequency}(w)}\cdot\frac{\partial \text{Loss}}{\partial w}∂w ∂Loss :=frequency (w )1 ⋅∂w ∂Loss

默认为 False。

sparse \textcolor{blue}{\text{sparse}}sparse

若设置为 True，则与 Embedding.weight 相关的梯度将变为稀疏张量，此时优化器只能选择： SGD、 SparseAdam 和 Adagrad。默认为 False。

2.5 使用预训练的词嵌入

有些情况下我们需要使用预训练的词嵌入，这时候可以使用 from_pretrained 方法，如下：

torch.manual_seed(0)
pretrained_embeddings = torch.randn(4, 3)
print(pretrained_embeddings)

emb = nn.Embedding(4, 3).from_pretrained(pretrained_embeddings)
print(emb.weight)

如果要避免预训练的词嵌入在后续的训练过程中更新，可将 freeze 参数设置为 True：

emb = nn.Embedding(4, 3).from_pretrained(pretrained_embeddings, freeze=True)

Original: https://blog.csdn.net/raelum/article/details/125462028
Author: Lareges
Title: 深入理解PyTorch中的nn.Embedding

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/720476/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人体姿态估计——Python+OpenCV+OpenPose

目录前言技术难点人体姿态估计方法类别 * 单人姿态估计多人姿态估计人体姿态跟踪 3D人体姿态估计技术原理 * 神经网络的实现相关代码参考文献运行过程 * 注意前…

人工智能 2023年6月19日
00110
相机模型、相机标定及基于yolov5的单目测距实现

相机模型、相机标定及基于yolov5的单目测距实现 * – 1 前言 – 2 相机模型及单目测距原理 – 3 相机参数标定 – + …

人工智能 2023年7月26日
0067
Python(PyCharm)的下载&安装&汉化（2022）

一、下载首先我们需要下载最新版的python和pycharm，也就是两个包，进入官网https://www.python.org/ 接下来点击下载最新版的python 接下来，我…

人工智能 2023年7月4日
0084
憨批的语义分割重制版6——Pytorch 搭建自己的Unet语义分割平台

憨批的语义分割重制版6——Pytorch 搭建自己的Unet语义分割平台注意事项学习前言什么是Unet模型代码下载 Unet实现思路 * 一、预测部分 – 1、…

人工智能 2023年5月26日
0064
【Python数据分析】数据挖掘建模——分类与预测——回归分析

根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。一、分类预测模型实现过程分类模型主要是预测分类编号，预测模…

人工智能 2023年7月17日
0084
模型之T5，UniLM，MASS，GPT

公司项目上有个文本生成的任务，难度比较大，花了相对不短的时间去熟悉这些模型，当然也没花太久，大概也就是读了下论文，以及网友们的一些介绍，现在记录总结下，后续应该会去阅读以及改写相关…

人工智能 2023年5月28日
0080
Conda替换镜像源方法尽头，再也不用到处搜镜像源地址

文章目录 Conda替换镜像源教程 * 1.镜像源添加方法 2.如何找到你要用的源 3.快速上手镜像源网站目录命名的含义部分包无法安装怎么办【2022年3月全网原文首发，转载…

人工智能 2023年7月24日
0070
QA中的信息检索技术（IR）整理

Retriever-Reader 现代绝大多数QA系统都可以用”Retriever-Reader”架构来描述，如下图所示。Retriever是现代QA系统的…

人工智能 2023年5月30日
0059
多维数据的归一化

本篇文章包括以下内容：1、数据的升降维度2、多维数据归一化思路3、关于归一化的注意事项 1、数据升降维度：首先我的数据集是一个100W*11的样式，我想用神经网络来对我的数据进行训…

人工智能 2023年7月7日
0055
联邦学习：FedProx框架

FEDERATED OPTIMIZATION IN HETEROGENEOUS NETWORKS 每日一诗：《当年万马尽腾空，就中紫骝尤最雄》明·张居正当年万马尽腾空，就中紫骝尤最…

人工智能 2023年7月27日
0053
PyQt5下+OpenCV启动摄像头

PyQt5下+OpenCV启动摄像头第一步：用PyQt5下的QtDesigner设计界面，如下：其中：1、摄像头为QLabel，大小设置为640X480，这也是笔记本上普通摄像…

人工智能 2023年6月18日
0065
22.【实战】车辆统计

理论知识见上一节，最终效果如下涉及到的内容（1）窗口的展示（2）图像/视频的加载（3）基本图形的绘制（4）车辆识别基本图像运算与处理、形态学处理、轮廓查找涉及到的知识…

人工智能 2023年5月28日
0071
麦克风声源定位原理_一种利用麦克风阵列进行声源定位的方法与流程

本发明涉及计算机信号处理领域，具体涉及一种利用麦克风阵列时延估计进行声源定位的方法。 [En] The invention relates to the field of comp…

人工智能 2023年5月27日
0060
【数据准备和特征工程】数据清理

import pandas as pd df = pd.read_csv("test.csv") df.sample(10) 获取前几行数据 data.head…

人工智能 2023年7月17日
0046
jetson tx2 刷机，安装 cuda、opencv 详细教程

jetson tx2 刷机，安装 cuda 、opencv 详细教程 jetson tx2 的详细介绍和用途可见官网：Nvidia jetson tx2. 接下来主要说明jetso…

人工智能 2023年7月19日
0052
CornerNet快速入门

论文：《CornerNet: Detecting Objects as Paired Keypoints》地址：https://openaccess.thecvf.com/con…

人工智能 2023年7月9日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31