从训练和预测的角度来理解Transformer中Masked Self-Attention的原理

传送门:手把手教你用Pytorch代码实现Transformer模型(超详细的代码解读)

Transformer模型结构图

在Transformer中Decoder会先经过一个masked self-attention层

从训练和预测的角度来理解Transformer中Masked Self-Attention的原理

使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所有问题。

; 什么是Masked Self-attention层

你只需要记住:masked self-attention层就是下面的网络连线(如果实现这样的神经元连接,你只要记住一个sequence mask,让右侧的注意力系数α i j = 0 \alpha_{ij}=0

Original: https://blog.csdn.net/qq_43827595/article/details/120400168
Author: 白马金羁侠少年
Title: 从训练和预测的角度来理解Transformer中Masked Self-Attention的原理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/544892/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球