Transformer代码：适用于语音识别（streaming-mode）

2023年5月25日下午7:20 • 人工智能 • 阅读 97

1. 简介

本代码是可运行的transformer代码块，只是基于一组数据（随机生成的数据）来调试，具体业务需要自己封装数据。
对Encoder/Decoder都做了mask处理（上三角矩阵），适用于streaming模式。（比如语音识别）
mask未采用chunk-mode，不能偷窥到后面输入，所以性能应该不高（需要自己调chunk-mask）
lost-func(损失函数)采用的是KLDIVCross。

2. 网络结构

Trasnformer
Encoder
- MultiHeadAttention
- poise-embedding
- mask-matrix
Decoder
- MultiHeadAttention
- poise-embedding
- mask-matrix
KL_LOSS

3. 源码

下面展示一些 内联代码片。

"""
  By fangfuping
  2022/7/30
"""
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import math
import logging
## 10
def get_attn_subsequent_mask(seq):
"""
    seq: [batch_size, tgt_len]
"""
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
    # attn_shape: [batch_size, tgt_len, tgt_len]
    subsequence_mask = np.triu(np.ones(attn_shape), k=1)  # &#x751F;&#x6210;&#x4E00;&#x4E2A;&#x4E0A;&#x4E09;&#x89D2;&#x77E9;&#x9635;
    subsequence_mask = torch.from_numpy(subsequence_mask).byte()
    return subsequence_mask  # [batch_size, tgt_len, tgt_len]
## 7. ScaledDotProductAttention
class ScaledDotProductAttention(nn.Module):
    def __init__(self, d_k):
        super(ScaledDotProductAttention, self).__init__()
        self.d_k = d_k
    def forward(self, Q, K, V):
        ## &#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;&#x7EF4;&#x5EA6;&#x5206;&#x522B;&#x662F; [batch_size x n_heads x len_q x d_k]  K&#xFF1A; [batch_size x n_heads x len_k x d_k]  V: [batch_size x n_heads x len_k x d_v]
        ##&#x9996;&#x5148;&#x7ECF;&#x8FC7;matmul&#x51FD;&#x6570;&#x5F97;&#x5230;&#x7684;scores&#x5F62;&#x72B6;&#x662F; : [batch_size x n_heads x len_q x len_k]
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(self.d_k)

        ## &#x7136;&#x540E;&#x5173;&#x952E;&#x8BCD;&#x5730;&#x65B9;&#x6765;&#x4E86;&#xFF0C;&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x7528;&#x5230;&#x4E86;&#x6211;&#x4EEC;&#x4E4B;&#x524D;&#x91CD;&#x70B9;&#x8BB2;&#x7684;attn_mask&#xFF0C;&#x628A;&#x88AB;mask&#x7684;&#x5730;&#x65B9;&#x7F6E;&#x4E3A;&#x65E0;&#x9650;&#x5C0F;&#xFF0C;softmax&#x4E4B;&#x540E;&#x57FA;&#x672C;&#x5C31;&#x662F;0&#xFF0C;&#x5BF9;q&#x7684;&#x5355;&#x8BCD;&#x4E0D;&#x8D77;&#x4F5C;&#x7528;
        #scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.

        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context, attn

## 6. MultiHeadAttention
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, d_k, d_v, n_heads):
        super(MultiHeadAttention, self).__init__()
        self.d_model = d_model
        self.d_k = d_k
        self.d_v = d_v
        self.n_heads = n_heads
        ## &#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;QKV&#x662F;&#x76F8;&#x7B49;&#x7684;&#xFF0C;&#x6211;&#x4EEC;&#x4F1A;&#x4F7F;&#x7528;&#x6620;&#x5C04;linear&#x505A;&#x4E00;&#x4E2A;&#x6620;&#x5C04;&#x5F97;&#x5230;&#x53C2;&#x6570;&#x77E9;&#x9635;Wq, Wk,Wv
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v * n_heads)
        self.linear = nn.Linear(n_heads * d_v, d_model)
        self.layer_norm = nn.LayerNorm(d_model)

    def forward(self, Q, K, V):

        ## &#x8FD9;&#x4E2A;&#x591A;&#x5934;&#x5206;&#x4E3A;&#x8FD9;&#x51E0;&#x4E2A;&#x6B65;&#x9AA4;&#xFF0C;&#x9996;&#x5148;&#x6620;&#x5C04;&#x5206;&#x5934;&#xFF0C;&#x7136;&#x540E;&#x8BA1;&#x7B97;atten_scores&#xFF0C;&#x7136;&#x540E;&#x8BA1;&#x7B97;atten_value;
        ##&#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;&#x6570;&#x636E;&#x5F62;&#x72B6;&#xFF1A; Q: [batch_size x len_q x d_model], K: [batch_size x len_k x d_model], V: [batch_size x len_k x d_model]
        residual, batch_size = Q, Q.size(0)
        # (B, S, D) -proj-> (B, S, D) -split-> (B, S, H, W) -trans-> (B, H, S, W)

        ##&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x5148;&#x6620;&#x5C04;&#xFF0C;&#x540E;&#x5206;&#x5934;&#xFF1B;&#x4E00;&#x5B9A;&#x8981;&#x6CE8;&#x610F;&#x7684;&#x662F;q&#x548C;k&#x5206;&#x5934;&#x4E4B;&#x540E;&#x7EF4;&#x5EA6;&#x662F;&#x4E00;&#x81F4;&#x989D;&#xFF0C;&#x6240;&#x4EE5;&#x4E00;&#x770B;&#x8FD9;&#x91CC;&#x90FD;&#x662F;dk
        q_s = self.W_Q(Q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # q_s: [batch_size x n_heads x len_q x d_k]
        k_s = self.W_K(K).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # k_s: [batch_size x n_heads x len_k x d_k]
        v_s = self.W_V(V).view(batch_size, -1, self.n_heads, self.d_v).transpose(1,2)  # v_s: [batch_size x n_heads x len_k x d_v]

        ## &#x8F93;&#x5165;&#x8FDB;&#x884C;&#x7684;attn_mask&#x5F62;&#x72B6;&#x662F; batch_size x len_q x len_k&#xFF0C;&#x7136;&#x540E;&#x7ECF;&#x8FC7;&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x4EE3;&#x7801;&#x5F97;&#x5230; &#x65B0;&#x7684;attn_mask : [batch_size x n_heads x len_q x len_k]&#xFF0C;&#x5C31;&#x662F;&#x628A;pad&#x4FE1;&#x606F;&#x91CD;&#x590D;&#x4E86;n&#x4E2A;&#x5934;&#x4E0A;
        #attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1)

        ##&#x7136;&#x540E;&#x6211;&#x4EEC;&#x8BA1;&#x7B97; ScaledDotProductAttention &#x8FD9;&#x4E2A;&#x51FD;&#x6570;&#xFF0C;&#x53BB;7.&#x770B;&#x4E00;&#x4E0B;
        ## &#x5F97;&#x5230;&#x7684;&#x7ED3;&#x679C;&#x6709;&#x4E24;&#x4E2A;&#xFF1A;context: [batch_size x n_heads x len_q x d_v], attn: [batch_size x n_heads x len_q x len_k]
        context, attn = ScaledDotProductAttention(self.d_k)(q_s, k_s, v_s)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v) # context: [batch_size x len_q x n_heads * d_v]
        output = self.linear(context)
        return self.layer_norm(output + residual), attn # output: [batch_size x len_q x d_model]

## 8. PoswiseFeedForwardNet
class PoswiseFeedForwardNet(nn.Module):
    def __init__(self, d_model, d_ff):
        super(PoswiseFeedForwardNet, self).__init__()
        self.conv1 = nn.Conv1d(in_channels=d_model, out_channels=d_ff, kernel_size=1)
        self.conv2 = nn.Conv1d(in_channels=d_ff, out_channels=d_model, kernel_size=1)
        self.layer_norm = nn.LayerNorm(d_model)

    def forward(self, inputs):
        residual = inputs # inputs : [batch_size, len_q, d_model]
        output = nn.ReLU()(self.conv1(inputs.transpose(1, 2)))
        output = self.conv2(output).transpose(1, 2)
        return self.layer_norm(output + residual)

## 4. get_attn_pad_mask

## len_input * len*input  &#x4EE3;&#x8868;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x5BF9;&#x5176;&#x4F59;&#x5305;&#x542B;&#x81EA;&#x5DF1;&#x7684;&#x5355;&#x8BCD;&#x7684;&#x5F71;&#x54CD;&#x529B;
## &#x6CA1;&#x7528;&#x4E0A;&#xFF0C;&#x56E0;&#x4E3A;&#x6CA1;&#x6709;&#x8865;0
def get_attn_pad_mask(seq_q, seq_k):
    batch_size, len_q = seq_q.size()
    batch_size, len_k = seq_k.size()
    # eq(zero) is PAD token
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)  # batch_size x 1 x len_k, one is masking
    return pad_attn_mask.expand(batch_size, len_q, len_k)  # batch_size x len_q x len_k

## 3. PositionalEncoding &#x4EE3;&#x7801;&#x5B9E;&#x73B0;
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()

        ## &#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x76F4;&#x63A5;&#x5BF9;&#x7167;&#x7740;&#x516C;&#x5F0F;&#x53BB;&#x6572;&#x4EE3;&#x7801;&#x5C31;&#x53EF;&#x4EE5;&#xFF1B;
        self.dropout = nn.Dropout(p=dropout)
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)## &#x8FD9;&#x91CC;&#x9700;&#x8981;&#x6CE8;&#x610F;&#x7684;&#x662F;pe[:, 0::2]&#x8FD9;&#x4E2A;&#x7528;&#x6CD5;&#xFF0C;&#x5C31;&#x662F;&#x4ECE;0&#x5F00;&#x59CB;&#x5230;&#x6700;&#x540E;&#x9762;&#xFF0C;&#x8865;&#x957F;&#x4E3A;2&#xFF0C;&#x5176;&#x5B9E;&#x4EE3;&#x8868;&#x7684;&#x5C31;&#x662F;&#x5076;&#x6570;&#x4F4D;&#x7F6E;
        pe[:, 1::2] = torch.cos(position * div_term)##&#x8FD9;&#x91CC;&#x9700;&#x8981;&#x6CE8;&#x610F;&#x7684;&#x662F;pe[:, 1::2]&#x8FD9;&#x4E2A;&#x7528;&#x6CD5;&#xFF0C;&#x5C31;&#x662F;&#x4ECE;1&#x5F00;&#x59CB;&#x5230;&#x6700;&#x540E;&#x9762;&#xFF0C;&#x8865;&#x957F;&#x4E3A;2&#xFF0C;&#x5176;&#x5B9E;&#x4EE3;&#x8868;&#x7684;&#x5C31;&#x662F;&#x5947;&#x6570;&#x4F4D;&#x7F6E;
        ## &#x4E0A;&#x9762;&#x4EE3;&#x7801;&#x83B7;&#x53D6;&#x4E4B;&#x540E;&#x5F97;&#x5230;&#x7684;pe:[max_len*d_model]

        ## &#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x4EE3;&#x7801;&#x4E4B;&#x540E;&#xFF0C;&#x6211;&#x4EEC;&#x5F97;&#x5230;&#x7684;pe&#x5F62;&#x72B6;&#x662F;&#xFF1A;[max_len*1*d_model]
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)  ## &#x5B9A;&#x4E00;&#x4E2A;&#x7F13;&#x51B2;&#x533A;&#xFF0C;&#x5176;&#x5B9E;&#x7B80;&#x5355;&#x7406;&#x89E3;&#x4E3A;&#x8FD9;&#x4E2A;&#x53C2;&#x6570;&#x4E0D;&#x66F4;&#x65B0;&#x5C31;&#x53EF;&#x4EE5;
    def forward(self, x):
"""
        x: [seq_len, batch_size, d_model]
"""
        x = x + self.pe[:x.size(0), :]
        return self.dropout(x)

## 5. EncoderLayer &#xFF1A;&#x5305;&#x542B;&#x4E24;&#x4E2A;&#x90E8;&#x5206;&#xFF0C;&#x591A;&#x5934;&#x6CE8;&#x610F;&#x529B;&#x673A;&#x5236;&#x548C;&#x524D;&#x9988;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;
class EncoderLayer(nn.Module):
    def __init__(self,d_model,d_k,d_v,n_heads,d_ff):
        super(EncoderLayer, self).__init__()
        self.enc_self_attn = MultiHeadAttention(d_model,d_k,d_v,n_heads)
        self.pos_ffn = PoswiseFeedForwardNet(d_model,d_ff)

    def forward(self, enc_inputs):
        ## &#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x505A;&#x81EA;&#x6CE8;&#x610F;&#x529B;&#x5C42;&#xFF0C;&#x8F93;&#x5165;&#x662F;enc_inputs&#xFF0C;&#x5F62;&#x72B6;&#x662F;[batch_size x seq_len_q x d_model] &#x9700;&#x8981;&#x6CE8;&#x610F;&#x7684;&#x662F;&#x6700;&#x521D;&#x59CB;&#x7684;QKV&#x77E9;&#x9635;&#x662F;&#x7B49;&#x540C;&#x4E8E;&#x8FD9;&#x4E2A;&#x8F93;&#x5165;&#x7684;&#xFF0C;&#x53BB;&#x770B;&#x4E00;&#x4E0B;enc_self_attn&#x51FD;&#x6570; 6.

        enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs) # enc_inputs to same Q,K,V
        enc_outputs = self.pos_ffn(enc_outputs) # enc_outputs: [batch_size x len_q x d_model]
        return enc_outputs, attn
## 2. Encoder &#x90E8;&#x5206;&#x5305;&#x542B;&#x4E09;&#x4E2A;&#x90E8;&#x5206;&#xFF1A;&#x8BCD;&#x5411;&#x91CF;embedding&#xFF0C;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x90E8;&#x5206;&#xFF0C;&#x6CE8;&#x610F;&#x529B;&#x5C42;&#x53CA;&#x540E;&#x7EED;&#x7684;&#x524D;&#x9988;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;

class Encoder(nn.Module):
    def __init__(self, src_vocab_size,d_model,n_layers,d_k,d_v,n_heads,d_ff):
        super(Encoder, self).__init__()
        #self.src_emb = nn.Embedding(src_vocab_size, 80)  ## &#x8FD9;&#x4E2A;&#x5176;&#x5B9E;&#x5C31;&#x662F;&#x53BB;&#x5B9A;&#x4E49;&#x751F;&#x6210;&#x4E00;&#x4E2A;&#x77E9;&#x9635;&#xFF0C;&#x5927;&#x5C0F;&#x662F; src_vocab_size * d_model
        self.linear = nn.Linear(src_vocab_size,d_model)
        self.pos_emb = PositionalEncoding(d_model) ## &#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x60C5;&#x51B5;&#xFF0C;&#x8FD9;&#x91CC;&#x662F;&#x56FA;&#x5B9A;&#x7684;&#x6B63;&#x4F59;&#x5F26;&#x51FD;&#x6570;&#xFF0C;&#x4E5F;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;&#x7C7B;&#x4F3C;&#x8BCD;&#x5411;&#x91CF;&#x7684;nn.Embedding&#x83B7;&#x5F97;&#x4E00;&#x4E2A;&#x53EF;&#x4EE5;&#x66F4;&#x65B0;&#x5B66;&#x4E60;&#x7684;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;
        self.layers = nn.ModuleList([EncoderLayer(d_model,d_k,d_v,n_heads,d_ff) for _ in range(n_layers)]) ## &#x4F7F;&#x7528;ModuleList&#x5BF9;&#x591A;&#x4E2A;encoder&#x8FDB;&#x884C;&#x5806;&#x53E0;&#xFF0C;&#x56E0;&#x4E3A;&#x540E;&#x7EED;&#x7684;encoder&#x5E76;&#x6CA1;&#x6709;&#x4F7F;&#x7528;&#x8BCD;&#x5411;&#x91CF;&#x548C;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#xFF0C;&#x6240;&#x4EE5;&#x62BD;&#x79BB;&#x51FA;&#x6765;&#xFF1B;

    def forward(self, enc_inputs):
        enc_outputs = self.linear(enc_inputs)
        ## &#x8FD9;&#x91CC;&#x5C31;&#x662F;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#xFF0C;&#x628A;&#x4E24;&#x8005;&#x76F8;&#x52A0;&#x653E;&#x5165;&#x5230;&#x4E86;&#x8FD9;&#x4E2A;&#x51FD;&#x6570;&#x91CC;&#x9762;&#xFF0C;&#x4ECE;&#x8FD9;&#x91CC;&#x53EF;&#x4EE5;&#x53BB;&#x770B;&#x4E00;&#x4E0B;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x51FD;&#x6570;&#x7684;&#x5B9E;&#x73B0;&#xFF1B;3.

        enc_outputs = self.pos_emb(enc_outputs.transpose(0, 1)).transpose(0, 1)

        ##get_attn_pad_mask&#x662F;&#x4E3A;&#x4E86;&#x5F97;&#x5230;&#x53E5;&#x5B50;&#x4E2D;pad&#x7684;&#x4F4D;&#x7F6E;&#x4FE1;&#x606F;&#xFF0C;&#x7ED9;&#x5230;&#x6A21;&#x578B;&#x540E;&#x9762;&#xFF0C;&#x5728;&#x8BA1;&#x7B97;&#x81EA;&#x6CE8;&#x610F;&#x529B;&#x548C;&#x4EA4;&#x4E92;&#x6CE8;&#x610F;&#x529B;&#x7684;&#x65F6;&#x5019;&#x53BB;&#x6389;pad&#x7B26;&#x53F7;&#x7684;&#x5F71;&#x54CD;&#xFF0C;&#x53BB;&#x770B;&#x4E00;&#x4E0B;&#x8FD9;&#x4E2A;&#x51FD;&#x6570; 4.

        #enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)
        enc_self_attns = []
        for layer in self.layers:
            ## &#x53BB;&#x770B;EncoderLayer &#x5C42;&#x51FD;&#x6570; 5.

            enc_outputs, enc_self_attn = layer(enc_outputs)
            enc_self_attns.append(enc_self_attn)
        return enc_outputs, enc_self_attns

## 12. ScaledDotProductAttentionMask
class ScaledDotProductAttentionMask(nn.Module):
    def __init__(self, d_k):
        super(ScaledDotProductAttentionMask, self).__init__()
        self.d_k = d_k
    def forward(self, Q, K, V, attn_mask):
        ## &#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;&#x7EF4;&#x5EA6;&#x5206;&#x522B;&#x662F; [batch_size x n_heads x len_q x d_k]  K&#xFF1A; [batch_size x n_heads x len_k x d_k]  V: [batch_size x n_heads x len_k x d_v]
        ##&#x9996;&#x5148;&#x7ECF;&#x8FC7;matmul&#x51FD;&#x6570;&#x5F97;&#x5230;&#x7684;scores&#x5F62;&#x72B6;&#x662F; : [batch_size x n_heads x len_q x len_k]
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(self.d_k)

        ## &#x7136;&#x540E;&#x5173;&#x952E;&#x8BCD;&#x5730;&#x65B9;&#x6765;&#x4E86;&#xFF0C;&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x7528;&#x5230;&#x4E86;&#x6211;&#x4EEC;&#x4E4B;&#x524D;&#x91CD;&#x70B9;&#x8BB2;&#x7684;attn_mask&#xFF0C;&#x628A;&#x88AB;mask&#x7684;&#x5730;&#x65B9;&#x7F6E;&#x4E3A;&#x65E0;&#x9650;&#x5C0F;&#xFF0C;softmax&#x4E4B;&#x540E;&#x57FA;&#x672C;&#x5C31;&#x662F;0&#xFF0C;&#x5BF9;q&#x7684;&#x5355;&#x8BCD;&#x4E0D;&#x8D77;&#x4F5C;&#x7528;
        scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.

        attn = nn.Softmax(dim=-1)(scores)
        context = torch.matmul(attn, V)
        return context, attn

## 11 mask-atten
class MultiHeadAttentionMask(nn.Module):
    def __init__(self, d_model, d_k, d_v, n_heads):
        super(MultiHeadAttentionMask, self).__init__()
        self.d_model = d_model
        self.d_k = d_k
        self.d_v = d_v
        self.n_heads = n_heads
        ## &#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;QKV&#x662F;&#x76F8;&#x7B49;&#x7684;&#xFF0C;&#x6211;&#x4EEC;&#x4F1A;&#x4F7F;&#x7528;&#x6620;&#x5C04;linear&#x505A;&#x4E00;&#x4E2A;&#x6620;&#x5C04;&#x5F97;&#x5230;&#x53C2;&#x6570;&#x77E9;&#x9635;Wq, Wk,Wv
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v * n_heads)
        self.linear = nn.Linear(n_heads * d_v, d_model)
        self.layer_norm = nn.LayerNorm(d_model)
    def forward(self, Q, K, V, attn_mask):

        ## &#x8FD9;&#x4E2A;&#x591A;&#x5934;&#x5206;&#x4E3A;&#x8FD9;&#x51E0;&#x4E2A;&#x6B65;&#x9AA4;&#xFF0C;&#x9996;&#x5148;&#x6620;&#x5C04;&#x5206;&#x5934;&#xFF0C;&#x7136;&#x540E;&#x8BA1;&#x7B97;atten_scores&#xFF0C;&#x7136;&#x540E;&#x8BA1;&#x7B97;atten_value;
        ##&#x8F93;&#x5165;&#x8FDB;&#x6765;&#x7684;&#x6570;&#x636E;&#x5F62;&#x72B6;&#xFF1A; Q: [batch_size x len_q x d_model], K: [batch_size x len_k x d_model], V: [batch_size x len_k x d_model]
        residual, batch_size = Q, Q.size(0)

        ##&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x5C31;&#x662F;&#x5148;&#x6620;&#x5C04;&#xFF0C;&#x540E;&#x5206;&#x5934;&#xFF1B;&#x8FD9;&#x91CC;&#x90FD;&#x662F;dk
        q_s = self.W_Q(Q).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # q_s: [batch_size x n_heads x len_q x d_k]
        k_s = self.W_K(K).view(batch_size, -1, self.n_heads, self.d_k).transpose(1,2)  # k_s: [batch_size x n_heads x len_k x d_k]
        v_s = self.W_V(V).view(batch_size, -1, self.n_heads, self.d_v).transpose(1,2)  # v_s: [batch_size x n_heads x len_k x d_v]

        ## &#x8F93;&#x5165;&#x8FDB;&#x884C;&#x7684;attn_mask&#x5F62;&#x72B6;&#x662F; batch_size x len_q x len_k&#xFF0C;&#x7136;&#x540E;&#x7ECF;&#x8FC7;&#x4E0B;&#x9762;&#x8FD9;&#x4E2A;&#x4EE3;&#x7801;&#x5F97;&#x5230; &#x65B0;&#x7684;attn_mask : [batch_size x n_heads x len_q x len_k]&#xFF0C;&#x5C31;&#x662F;&#x628A;pad&#x4FE1;&#x606F;&#x91CD;&#x590D;&#x4E86;n&#x4E2A;&#x5934;&#x4E0A;
        attn_mask = attn_mask.unsqueeze(1).repeat(1, self.n_heads, 1, 1)

        ## context: [batch_size x n_heads x len_q x d_v], attn: [batch_size x n_heads x len_q x len_k]
        context, attn = ScaledDotProductAttentionMask(self.d_k)(q_s, k_s, v_s, attn_mask)
        context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.n_heads * self.d_v) # context: [batch_size x len_q x n_heads * d_v]
        output = self.linear(context)
        return self.layer_norm(output + residual), attn # output: [batch_size x len_q x d_model]

## 10.

class DecoderLayer(nn.Module):
    def __init__(self,d_model,d_k,d_v,n_heads,d_ff):
        super(DecoderLayer, self).__init__()
        self.dec_self_attn = MultiHeadAttentionMask(d_model,d_k,d_v,n_heads)
        self.dec_enc_attn = MultiHeadAttention(d_model,d_k,d_v,n_heads)
        self.pos_ffn = PoswiseFeedForwardNet(d_model,d_ff)

    def forward(self, dec_inputs, enc_outputs, mask):
        dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, mask)
        dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs)
        dec_outputs = self.pos_ffn(dec_outputs)
        return dec_outputs, dec_self_attn, dec_enc_attn

## 9. Decoder

class Decoder(nn.Module):
    def __init__(self, tgt_vocab_size, d_model, n_layers,d_k,d_v,n_heads,d_ff):
        super(Decoder, self).__init__()
        self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)
        self.pos_emb = PositionalEncoding(d_model,0.1,5000)
        self.layers = nn.ModuleList([DecoderLayer(d_model,d_k,d_v,n_heads,d_ff) for _ in range(n_layers)])

    def forward(self, dec_inputs, enc_inputs, enc_outputs): # dec_inputs : [batch_size x target_len]
        dec_outputs = self.tgt_emb(dec_inputs)  # [batch_size, tgt_len, d_model]
        dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1) # [batch_size, tgt_len, d_model]

        dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs)

        dec_self_attns, dec_enc_attns = [], []
        for layer in self.layers:
            dec_outputs, dec_self_attn, dec_enc_attn = layer(dec_outputs, enc_outputs,dec_self_attn_subsequent_mask)
            dec_self_attns.append(dec_self_attn)
            dec_enc_attns.append(dec_enc_attn)
        return dec_outputs, dec_self_attns, dec_enc_attns

## 1. &#x4ECE;&#x6574;&#x4F53;&#x7F51;&#x8DEF;&#x7ED3;&#x6784;&#x6765;&#x770B;&#xFF0C;&#x5206;&#x4E3A;&#x4E09;&#x4E2A;&#x90E8;&#x5206;&#xFF1A;&#x7F16;&#x7801;&#x5C42;&#xFF0C;&#x89E3;&#x7801;&#x5C42;&#xFF0C;&#x8F93;&#x51FA;&#x5C42;
class Transformer(nn.Module):
    def __init__(self, src_vocab_size,tgt_vocab_size, d_model, n_layers,d_k,d_v,n_heads,d_ff):
        super(Transformer, self).__init__()
        self.d_model = d_model
        self.src_vocab_size = src_vocab_size
        self.tgt_vocab_size = tgt_vocab_size
        self.encoder = Encoder(src_vocab_size,d_model,n_layers,d_k,d_v,n_heads,d_ff)  ## &#x7F16;&#x7801;&#x5C42;
        self.decoder = Decoder(tgt_vocab_size, d_model, n_layers,d_k,d_v,n_heads,d_ff)  ## &#x89E3;&#x7801;&#x5C42;
        self.crition = LOSS(tgt_vocab_size)
        self.projection = nn.Linear(d_model, tgt_vocab_size, bias=False) ## &#x8F93;&#x51FA;&#x5C42; d_model &#x662F;&#x6211;&#x4EEC;&#x89E3;&#x7801;&#x5C42;&#x6BCF;&#x4E2A;token&#x8F93;&#x51FA;&#x7684;&#x7EF4;&#x5EA6;&#x5927;&#x5C0F;&#xFF0C;&#x4E4B;&#x540E;&#x4F1A;&#x505A;&#x4E00;&#x4E2A; tgt_vocab_size &#x5927;&#x5C0F;&#x7684;softmax
    def forward(self, enc_inputs, dec_inputs):
        ## &#x8FD9;&#x91CC;&#x6709;&#x4E24;&#x4E2A;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x8F93;&#x5165;&#xFF0C;&#x4E00;&#x4E2A;&#x662F;enc_inputs &#x5F62;&#x72B6;&#x4E3A;[batch_size, src_len]&#xFF0C;&#x4E3B;&#x8981;&#x662F;&#x4F5C;&#x4E3A;&#x7F16;&#x7801;&#x6BB5;&#x7684;&#x8F93;&#x5165;&#xFF0C;&#x4E00;&#x4E2A;dec_inputs&#xFF0C;&#x5F62;&#x72B6;&#x4E3A;[batch_size, tgt_len]&#xFF0C;&#x4E3B;&#x8981;&#x662F;&#x4F5C;&#x4E3A;&#x89E3;&#x7801;&#x7AEF;&#x7684;&#x8F93;&#x5165;

        ## enc_inputs&#x4F5C;&#x4E3A;&#x8F93;&#x5165; &#x5F62;&#x72B6;&#x4E3A;[batch_size, src_len]&#xFF0C;&#x8F93;&#x51FA;&#x7531;&#x81EA;&#x5DF1;&#x7684;&#x51FD;&#x6570;&#x5185;&#x90E8;&#x6307;&#x5B9A;&#xFF0C;&#x60F3;&#x8981;&#x4EC0;&#x4E48;&#x6307;&#x5B9A;&#x8F93;&#x51FA;&#x4EC0;&#x4E48;&#xFF0C;&#x53EF;&#x4EE5;&#x662F;&#x5168;&#x90E8;tokens&#x7684;&#x8F93;&#x51FA;&#xFF0C;&#x53EF;&#x4EE5;&#x662F;&#x7279;&#x5B9A;&#x6BCF;&#x4E00;&#x5C42;&#x7684;&#x8F93;&#x51FA;&#xFF1B;&#x4E5F;&#x53EF;&#x4EE5;&#x662F;&#x4E2D;&#x95F4;&#x67D0;&#x4E9B;&#x53C2;&#x6570;&#x7684;&#x8F93;&#x51FA;&#xFF1B;
        ## enc_outputs&#x5C31;&#x662F;&#x4E3B;&#x8981;&#x7684;&#x8F93;&#x51FA;&#xFF0C;enc_self_attns&#x8FD9;&#x91CC;&#x6CA1;&#x8BB0;&#x9519;&#x7684;&#x662F;QK&#x8F6C;&#x7F6E;&#x76F8;&#x4E58;&#x4E4B;&#x540E;softmax&#x4E4B;&#x540E;&#x7684;&#x77E9;&#x9635;&#x503C;&#xFF0C;&#x4EE3;&#x8868;&#x7684;&#x662F;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x548C;&#x5176;&#x4ED6;&#x5355;&#x8BCD;&#x76F8;&#x5173;&#x6027;&#xFF1B;
        enc_outputs, enc_self_attns = self.encoder(enc_inputs)

        ## dec_outputs &#x662F;decoder&#x4E3B;&#x8981;&#x8F93;&#x51FA;&#xFF0C;&#x7528;&#x4E8E;&#x540E;&#x7EED;&#x7684;linear&#x6620;&#x5C04;&#xFF1B; dec_self_attns&#x7C7B;&#x6BD4;&#x4E8E;enc_self_attns &#x662F;&#x67E5;&#x770B;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x5BF9;decoder&#x4E2D;&#x8F93;&#x5165;&#x7684;&#x5176;&#x4F59;&#x5355;&#x8BCD;&#x7684;&#x76F8;&#x5173;&#x6027;&#xFF1B;dec_enc_attns&#x662F;decoder&#x4E2D;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x5BF9;encoder&#x4E2D;&#x6BCF;&#x4E2A;&#x5355;&#x8BCD;&#x7684;&#x76F8;&#x5173;&#x6027;&#xFF1B;
        dec_outputs, dec_self_attns, dec_enc_attns = self.decoder(dec_inputs, enc_inputs, enc_outputs)

        ## dec_outputs&#x505A;&#x6620;&#x5C04;&#x5230;&#x8BCD;&#x8868;&#x5927;&#x5C0F;
        dec_logits = self.projection(dec_outputs) # dec_logits : [batch_size x src_vocab_size x tgt_vocab_size]
        dec_logits = dec_logits.view(-1,dec_logits.size(-1))
        loss1 = self.crition(dec_logits,dec_inputs)
        return loss1

13&#x3001;KILDIV
class LOSS(nn.Module):
    def __init__(self, tgt_vocab_size):
        super(LOSS, self).__init__()
        self.criterion = nn.KLDivLoss()
        self.tgt_vocab_size = tgt_vocab_size
    def forward(self,outputs, target):
        batch_size = outputs.size(0)
        outputs = outputs.view(-1,self.tgt_vocab_size)
        target = target.view(-1)

        true_dist = torch.zeros_like(outputs)
        true_dist.fill_(0.01 / (self.tgt_vocab_size - 1))
        true_dist.scatter_(1, target.unsqueeze(1), 1 - 0.01)
        outputs = torch.softmax(outputs, dim=0)
        return self.criterion(outputs.log(),true_dist)

if __name__ == '__main__':
    #src_vocab_size = 80 # fbank
    #tgt_vocab_size = 5000 # bpe
    src_vocab_size=40
    tgt_vocab_size=1000
    d_model=512
    n_layers=6
    d_k=64
    d_v=64
    n_heads=8
    d_ff=2048
    model = Transformer(src_vocab_size,tgt_vocab_size, d_model, n_layers,d_k,d_v,n_heads,d_ff)
    optimizer = optim.Adam(model.parameters(), lr=0.001)

    enc_inputs = torch.ones((1,3,40),dtype=torch.float32)
    dec_inputs = torch.ones((1,50),dtype=torch.int64)
    for epoch in range(20):
        optimizer.zero_grad()
        loss = model(enc_inputs, dec_inputs)
        print('Epoch:', '%04d' % (epoch + 1), 'cost =', '{:.6f}'.format(loss))
        loss.backward()
        optimizer.step()
        logging.info('loss'.format(loss))

Original: https://blog.csdn.net/qq_37258753/article/details/126329654
Author: 方付平
Title: Transformer代码：适用于语音识别（streaming-mode）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515655/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

项目型ERP系统哪家做得好？

大多数企业会发现购买和实施项目型ERP系统是一项巨大的投资。项目型企业的ERP系统选择应基于与企业业务相关的标准，因为最适合的ERP解决方案可以提供巨大的投资回报 (ROI)，而不…

人工智能 2023年6月28日
0096
上手Pandas，带你玩转数据（1）– 实例详解pandas数据结构

文章目录 * – 关于pandas – + pandas创始人对pandas的讲解 + pandas的热度 + pandas对于数据分析 – p…

人工智能 2023年7月8日
0061
医学健康数据分析与挖掘（一）—— R语言实战

1 实验简介 R简介及线性回归实验熟悉 R 语言基本语法利用 R 语言完成线性回归 2 实验内容 2.1 混合同余法利用如下递推公式：x n = ( a x n − 1 + …

人工智能 2023年7月16日
0058
【Python】OpenCV读取视频帧并保存为图片

cv2.VideoCapture()读取视频帧 import cv2 VIDEO_PATH = ‘video.mp4’ video = cv2.VideoCapture(video…

人工智能 2023年6月18日
00103
TensorFlow的protobuf版本兼容问题

主要解决方案是在版本不匹配时报告错误： [En] The main solution is to report an error when the version does not…

人工智能 2023年5月25日
00115
python 使用pandas 读写excel文件

现在本地创建一个excel表，以及两个sheet，具体数据如下： sheet1： sheet2: 读取excel文件 pandas.read_excel(io, sheet_nam…

人工智能 2023年7月4日
0080
【流行前沿】QSFL: A Two-Level Uplink Communication Optimization Framework for Federated Learning

今天分享一篇研究模型细粒度传输的联邦学习文章，作者Liping Yi来自于南开大学，发表在ICML 2022。故事的起源还是来自于深度网络越来越大，导致上行链路达到了TB级别，这…

人工智能 2023年6月4日
0067
使用Python-OpenCV实时测量物体的尺寸大小（仅供参考）

目录前言 * 一、开发前准备二、需要的库三、程序主体 – 3.0 mian() 3.1设置被调用的摄像头类型 3.2调用相机 3.3图像处理（轮廓端点查找） 3….

人工智能 2023年5月26日
00135
从Hadder看蛋白质分子中的加氢算法

技术背景 PDB（Protein Data Bank）是一种最常用于存储蛋白质结构的文件。而我们在研究蛋白质构象时，往往更多的是考虑其骨架，因此在很多pdb文件中直接去掉了氢原子。…

人工智能 2023年6月4日
0084
树莓派-14-打造智能音箱

人工智能 2023年5月23日
0082
A9.玻璃制品的成分分析与鉴别-分析与讨论

2022年数学建模国赛（A题/B题/C题）评阅要点文章目录 * – 1. 更新讨论 – + 1.1 题目读几遍都不多 + * 1. “空白处表…

人工智能 2023年5月31日
00117
终于知道为什么要freeze BN层，以及如何freeze(这个trick真的可以加快收敛）

一、什么是Batch Normalization（BN)层 BN层是数据归一化的方法，一般都是在深度神经网络中，激活函数之前，我们在训练神经网络之前，都会对数据进行预处理，即减去均…

人工智能 2023年6月15日
0086
广州大学机器学习与数据挖掘实验二

实验二逻辑回归与朴素贝叶斯分类一、实验目的本实验课程是计算机、人工智能、软件工程等专业学生的一门专业课程，通过实验，帮助学生更好地掌握数据挖掘与机器学习相关概念、技术、原理、…

人工智能 2023年7月18日
0064
RVN 一种新的聚类算法

当我们需要对数据集进行聚类时，我们可能首先研究的算法是 K means, DBscan, hierarchical clustering 。那些经典的聚类算法总是将每个数据点视为…

人工智能 2023年6月2日
0095
第三章使用stick-learn实现分类算法

3.1分类算法选择分类算法步骤： 1.特征的选择 2.确定性能评价标准 3.选择分类器及其优化算法 4.对模型性能的评估 5.算法调优 “没有免费午餐理论&#8221…

人工智能 2023年7月1日
00109
Vue脚手架Ⅱ（props配置，mixin混入，插件，scoped样式）

文章目录使用Vue脚手架 * 3.5 props配置 – 3.5.1 props案例分析 3.5.2 配置项props总结 3.6 mixin 混入 3.7 插件 3…

人工智能 2023年6月29日
00117

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Transformer代码：适用于语音识别（streaming-mode）

1. 简介

2. 网络结构

3. 源码

大家都在看