传送门:手把手教你用Pytorch代码实现Transformer模型(超详细的代码解读)
Transformer模型结构图
在Transformer中Decoder会先经过一个masked self-attention层
使用Masked Self-Attention层可以解决下文提到的训练阶段和预测阶段Decoder可能遇到的所有问题。
; 什么是Masked Self-attention层
你只需要记住:masked self-attention层就是下面的网络连线(如果实现这样的神经元连接,你只要记住一个sequence mask,让右侧的注意力系数α i j = 0 \alpha_{ij}=0
Original: https://blog.csdn.net/qq_43827595/article/details/120400168
Author: 白马金羁侠少年
Title: 从训练和预测的角度来理解Transformer中Masked Self-Attention的原理
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/544892/
转载文章受原作者版权保护。转载请注明原作者出处!