torch.nn.Embedding()详解

2023年7月21日上午7:04 • 人工智能 • 阅读 61

一、语法格式

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None,
                   max_norm=None, norm_type=2.0,
                   scale_grad_by_freq=False, sparse=False, _weight=None)

1、参数说明
（1） num_embeddings(int）：语料库字典大小；
（2） embedding_dim(int)：每个嵌入向量的大小；
（3） padding_idx(int, optional)：输出遇到此下标时用零填充；
（4） max_norm(float, optional)：重新归一化词嵌入，使它们的范数小于提供的值；
（5） norm_type(float, optional)：对应max_norm选项计算p范数时的p，默认值为2；
（上面的4、5两个参数基本不用，通常使用kaiming和xavier初始化参数）
（6） scale_grad_by_freq(boolean, optional)：将通过小批量中单词频率的倒数来缩放梯度，默认为False。注意！这里的词频指的是自动获取当前小批量中的词频，而非整个词典；
（7） sparse(bool, optional)：如果为True，则与权重矩阵相关的梯度转变为稀疏张量。

稀疏张量指反向传播时只更新当前使用词的权重矩阵，以加快更新速度。但是，即使设置 sparse=True ，权重矩阵也未必稀疏更新，原因如下：

与优化器相关，使用SGD、Adam等优化器时包含momentum项，导致不相关词的Embedding依然会叠加动量，无法稀疏更新；
使用weight_decay，即正则项计入损失值。

基本上通常需要设置的参数是前三个

2、变量说明
Embedding.weight为可学习参数，形状为 (num_embeddings, embedding_dim) ，初始化为标准正态分布 (N(0, 10)) 。
输入：input(*)，数据类型LongTensor，一般为[mini-batch, nums of index]。
输出：output( * , embedding_dim)，其中 * 是输入的形状。

二、实例

import torch
import torch.nn as nn

embedding = nn.Embedding(10, 3)

embedding.weight
print(embedding.weight)

input = torch.LongTensor([[1, 2, 4, 5], [4, 3, 2, 9]])

a = embedding(input)
print(a)

输出结果：

Parameter containing:
tensor([[-1.7372, -0.7281, -1.9509],
        [-1.1080,  0.7775, -0.7351],
        [ 0.9606,  2.3034,  1.1976],
        [-0.6429,  2.1996, -0.0045],
        [-0.6949, -1.9427, -0.3486],
        [-2.4980, -0.7219,  1.0658],
        [-1.4095,  1.7520,  0.7215],
        [-0.2162,  0.7108,  0.9062],
        [-2.3733,  0.1184, -0.9335],
        [-0.0870,  0.1308, -0.6418]], requires_grad=True)
tensor([[[ 0.2644,  0.4962, -2.5476],
         [ 1.3521, -0.2055,  0.9044],
         [-0.3781,  0.0259, -1.7972],
         [-1.0164, -0.5694, -1.0062]],

        [[-0.3781,  0.0259, -1.7972],
         [-1.6988, -1.1996, -1.7316],
         [ 1.3521, -0.2055,  0.9044],
         [-1.1474,  0.9734, -0.2874]]], grad_fn=<EmbeddingBackward0>)

Process finished with exit code 0

requires_grad=True，所以weight是可学习的。

三、初始化
Enbedding Layer是如何初始化权重矩阵（即查找表）的？？
观察nn.Embedding对应的源码：

class Embedding(Module):
        ............

        if _weight is None:
            self.weight = Parameter(torch.empty((num_embeddings, embedding_dim), **factory_kwargs))
            self.reset_parameters()
        else:
    ............

    def reset_parameters(self) -> None:
        init.normal_(self.weight)
............

更新weight时主要使用了实例方法self.reset_parameters()，而这个实例方法又调用了初始化（init）模块中的normal_方法。

题外话
对于CNN中的参数：

-可学习的参数：卷积层和全连接层的权重、bias、BatchNorm的 [公式] 等。

-不可学习的参数(超参数)：学习率、batch_size、weight_decay、模型的深度宽度分辨率等。

Original: https://blog.csdn.net/weixin_43421371/article/details/124405754
Author: Quinn-ntmy
Title: torch.nn.Embedding()详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706566/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数字图像处理课程设计Hough变换检测房屋车道等边缘特征

摘要霍夫变换是一个特征提取技术。其可用于隔离图像中特定形状的特征的技术，应用在图像分析、计算机视觉和数字图像处理领域。目的是通过投票程序在特定类型的形状内找到对象的不完美实例。这…

人工智能 2023年6月22日
0078
python自然语言处理之词袋模型

The brown dog is running. The black dog is in the black room. Running in the room is forbi…

人工智能 2023年5月31日
0074
深度学习之快速实现数据集增强的方法

我们在深度学习训练之前准备数据集的时候，特别是打标注的数据集，需要耗费大量的人力物力打标签，在打完的基础我们还可以直接对数据集进行二次增强，即数据集增强。目录一、常用的数据集…

人工智能 2023年7月5日
0075
基于ssm的学生成绩分析系统maven idea

目录1 绪论 51.1课题背景 51.2 课题研究的意义 51.3 系统实现的功能 51.4 课题研究现状 52系统相关技术 72.1 Java技术 72.2 B/S架构 72…

人工智能 2023年6月26日
0070
在mysql中如何保存表格_图数据库如何存储电子表格?

有辛使用图数据库做过一次，复杂的关系系统，就我个人目前的了解用图数据库做电子表格还是不太适用的，也许mongodb更为合适。 mongodb中可以使用document为做电子表格，…

人工智能 2023年6月1日
0066
【机器学习】推荐算法(附例题代码)

往期文章【机器学习】回归分析【机器学习】Logistic回归【机器学习】神经网络【机器学习】支持向量机【机器学习】主成分分析与聚类分析文章目录 * – 推荐算法 &#…

人工智能 2023年7月25日
0052
Python数据分析（四）——plot方法

Series和DataFrame都有一个用于生成图表的 plot方法，该方法是matplotlib中 plt.plot()函数的一个简单包装，使得创建可视化图形变得容易。 plot…

人工智能 2023年7月15日
0061
Flink从Kafka写入mysql

简介： Flink实际生产过程中需要把数据从kafka中读取，处理后写入mysql中作为查询展示，本程序可以在本地运行，也可提交到yarn上运行，完整的Flink代码，开箱简单修改…

人工智能 2023年6月28日
0082
Pastiche Master: Exemplar-Based High-Resolution Portrait Style Transfer

cvpr2022 code and paper 背景现有的stylegan finetuning的人物风格化方法，基本上是将source domain变换到target doma…

人工智能 2023年7月23日
0054
【keras入门】MNIST数据集分类

目录一、分步流程 0.导入所需库 1.载入数据 3.创建模型 4.训练模型 5.完整代码二、需要用到的keras函数 1.np_utils.to_categorical() 2…

人工智能 2023年6月30日
0088
【一起入门NLP】中科院自然语言处理作业五：BiLSTM+Attention实现SemEval-2010 Task 8上的关系抽取（Pytorch）【代码+报告】

这里是国科大自然语言处理的第五次作业（终于是最后一次作业了，冲！），本篇博客是记录对论文： Attention-Based Bidirectional Long Short-Ter…

人工智能 2023年5月28日
00133
金融风控数据分析

一、信贷底层库表详解与数据集市构建 1.信贷业务底层数据核心库表穿透式详解 1）客户信息表结构与数据（customer_info）客户信息表是根据客户在前端申请信贷产品时主动填写…

人工智能 2023年6月19日
0069
Spyder故障基本解决方案（包括闪退）-超全版本

这些建议可以解决一部分问题，但往往只是靠自己来解决大多数报告的问题。建议的故障排除步骤重新启动Spyder ，然后再次尝试您以前所做的操作。升级Spyder 到最新版本，您可…

人工智能 2023年7月5日
00209
原子物理名词索引

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0072
深度学习与计算机视觉教程：斯坦福CS231n · 全套笔记解读

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

人工智能 2023年6月17日
00103
R语言使用dplyr包对dataframe行数据进行排序（基于多字段、变量进行数据行排序，多种方案）、并计算排序后分组的累积加和值

A：对于使用_Python对 _数据进行_统计和 _排序，常用的数据_科学库包括NumPy, pandas和SciPy。以下是一个简单实例，展示了如何 _使用_pandas对…

人工智能 2023年6月11日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

torch.nn.Embedding()详解

大家都在看