Transformer 中的mask

2023年5月28日下午12:26 • 大数据 • 阅读 146

transformer中的mask有两种作用：

其一：去除掉各种padding在训练过程中的影响。

其二，将输入进行遮盖，避免decoder看到后面要预测的东西。（只用在decoder中）

1.Encoder中的mask 的作用属于第一种

在encoder中，输入的是一batch的句子，为了进行batch训练，句子结尾进行了padding（P）。在输入encoder中训练的过程中，先进性多头自注意计算。在这个过程中 1）进行(q*K^T)/d_model^1/2. 2)然后要对得到的权重矩阵进行mask 3）再将结果进行softmax，去除掉不必要padding的影响 4）然后才和V矩阵相乘。

Encoder中的mask矩阵获取

def get_attn_pad_mask(enc_inputs, enc_inputs):    ### &#x7528;&#x6765;&#x751F;&#x4EA7;&#x4E09;&#x4E2A;&#x6CE8;&#x610F;&#x77E9;&#x9635;
    # print(seq_q)                      ### encoder_inputs  (&#x662F;&#x53E0;&#x52A0;&#x4E86;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x4E4B;&#x540E;&#x7684;embedding&#xFF09;
    batch_size, len_q = seq_q.size()    ### [1,5]    seq_q: [batch_size,sen_len]
    batch_size, len_k = seq_k.size()    # eq(zero) is PAD token
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)  # batch_size x 1 x len_k(=len_q), one is masking
    return pad_attn_mask.expand(batch_size, len_q, len_k)  # batch_size x len_q x len_k    ###expand()&#x51FD;&#x6570;&#xFF0C;&#x5C06;tensor&#x53D8;&#x5F62;&#x4E3A;&#x62EC;&#x53F7;&#x5185;&#x7684;&#x7EF4;&#x5EA6;&#x3002;expand&#x5230;&#x7684;&#x7EF4;&#x5EA6; &#x5C06;&#x7B2C;&#x4E00;&#x884C;&#x7684;&#x6570;&#x636E;&#x91CD;&#x590D;&#x5C31;&#x884C;&#x4E86;

得到的mask矩阵如下

多头自注意计算

class ScaledDotProductAttention(nn.Module):
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, Q, K, V, attn_mask):
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size x n_heads x len_q(=len_k) x len_k(=len_q)]
        scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.

        attn = nn.Softmax(dim=-1)(scores)       ### &#x8FD9;&#x91CC;attn_mask&#x6BCF;&#x4E00;&#x884C;&#x7684;&#x672B;&#x5C3E;&#x662F;&#x8865;&#x5145;&#x7684;padding&#xFF08;P&#xFF09;&#xFF0C;&#x7531;eq(0)&#x51FD;&#x6570;&#x5224;&#x65AD;&#x8F93;&#x51FA;&#x662F;True&#xFF0C;.&#x4E3A;&#x4E86;&#x4E0D;&#x8BA9;&#x586B;&#x5145;&#x5BF9;&#x7ED3;&#x679C;&#x4EA7;&#x751F;&#x5F71;&#x54CD;&#xFF0C;&#x8FD9;&#x91CC;&#x5148;&#x5C06;&#x5404;&#x79CD;&#x586B;&#x5145;(&#x5F00;&#x59CB;&#x7B26;&#x6216;&#x8005;&#x7ED3;&#x5C3E;&#x8865;&#x9F50;&#x7684;&#x586B;&#x5145;)mask&#x6210;&#x6700;&#x5C0F;&#x503C;
        context = torch.matmul(attn, V)         ### mask&#x540E;&#x5728;&#x8FDB;&#x884C;softmax&#xFF0C;&#x672C;&#x6765;&#x586B;&#x5145;&#x7684;&#x5730;&#x65B9;&#x5C31;&#x53D8;&#x6210;&#x4E86;0
        return context, attn

将attn_mask矩阵中元素为T（True）的位置对应的注意力矩阵scores矩阵中的位置元素置为极小值-1e9，在进行softmax，即可避免padding的影响

2.decoder中的mask。

有两个，作用也涵盖了mask的两种作用。decoder有三层，多头自注意层，多头编码-解码层，和前馈神经网络层

其一：在多头自注意层中，Q、K、V矩阵都来自于decoder的输入

针对decoder的输入不仅要去除padding的影响，同时为了防止decoder看到未来的信息，要对输入做一个上三角mask

dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs)      ### &#x5F97;&#x5230;&#x7684;&#x662F;mask&#x6389;&#x53E5;&#x672B;padding&#x7684;mask&#x77E9;&#x9635;
dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)    ### &#x5F97;&#x5230;&#x7684;&#x662F;mask&#x6389;Encoder&#x5F53;&#x524D;&#x8F93;&#x5165;&#x4E4B;&#x540E;&#x7684;&#x4FE1;&#x606F;&#x7684;mask&#x77E9;&#x9635;
dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0)   ### &#x53E0;&#x52A0;&#x4E0A;&#x9762;&#x4E24;&#x4E2A;mask&#x7684;&#x4F5C;&#x7528;

得到的三个矩阵分别如下

dec_self_attn_pad_mask：得到的是mask掉句末padding的mask矩阵

dec_self_attn_subsequent_mask：得到的是mask掉Encoder当前输入之后的信息的mask矩阵

dec_self_attn_mask：叠加上面两个mask的作用

将计算得到的注意力矩阵进行mask，对1的元素位置填充极小值，然后softmax，去除padding的影响并将decoder当前输入后面的信息进行遮盖。

scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)
scores.masked_fill_(attn_mask, -1e9)
attn = nn.Softmax(dim=-1)(scores)

其二：在多头编码-解码层中，Q矩阵来自于解码器的自注意层，而K、和V矩阵来自于Encoder的output，所以Encoder中的padding部分在编码-解码层中也要mask掉。

又因为encoder的输入和输出的sen_len 是一样的

有下得到mask,

def get_attn_pad_mask(enc_inputs, enc_inputs):    ### &#x7528;&#x6765;&#x751F;&#x4EA7;&#x4E09;&#x4E2A;&#x6CE8;&#x610F;&#x77E9;&#x9635;
    # print(seq_q)                                ### encoder_inputs  (&#x662F;&#x53E0;&#x52A0;&#x4E86;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x4E4B;&#x540E;&#x7684;embedding&#xFF09;
    batch_size, len_q = seq_q.size()              ### [1,5]    seq_q: [batch_size,sen_len]
    batch_size, len_k = seq_k.size()              # eq(zero) is PAD token
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)  # batch_size x 1 x len_k(=len_q), one is masking
    return pad_attn_mask.expand(batch_size, len_q, len_k)  # batch_size x len_q x len_k    ###expand()&#x51FD;&#x6570;&#xFF0C;&#x5C06;tensor&#x53D8;&#x5F62;&#x4E3A;&#x62EC;&#x53F7;&#x5185;&#x7684;&#x7EF4;&#x5EA6;&#x3002;expand&#x5230;&#x7684;&#x7EF4;&#x5EA6; &#x5C06;&#x7B2C;&#x4E00;&#x884C;&#x7684;&#x6570;&#x636E;&#x91CD;&#x590D;&#x5C31;&#x884C;&#x4E86;

dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)

维度为[batch_size , dec_inputs_sen_len , enc_inputs_sen_len]

进行mask，消除encoder_input中padding位置的影响。

scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)
scores.masked_fill_(attn_mask, -1e9)
attn = nn.Softmax(dim=-1)(scores)

参考：

https://zhuanlan.zhihu.com/p/139595546

https://www.cnblogs.com/neopenx/p/4806006.html

Original: https://blog.csdn.net/weixin_42253689/article/details/113838263
Author: 咖乐布小部
Title: Transformer 中的mask

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531476/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Transformer 中的mask

1.Encoder中的mask 的作用属于第一种

2.decoder中的mask。

大家都在看