处理时间序列数据的高端模型Transformer和Pytorch代码实现

2023年5月27日下午11:38 • 人工智能 • 阅读 88

; 1.self-attention 具体原理

第一步，Encoder的每个输入单词创建三个向量，
即 Query vector, Key vector, Value vector，三个向量分别由embedding结果和权重矩阵相乘得到。
第二步，由q*k计算得分，得到关注度。
第三步，将数据处理的稳健，并进行softmax。
第四步，得分乘以Value向量值。
第五步，将value加权得到self-attention值。

2.多头注意力机制

使用多个权重矩阵，分别与 Query vector, Key vector, Value vector进行self-attention计算。并将计算结果拼接为一个矩阵，进行前向传播计算。

3.Decoder

Decoder神奇之处在于将向量转变为单词，实现方法通过一个全连接层和Softmax函数实现。得到与候选单词数量相同维度的矩阵，根据概率选择最大的作为该位置的结果。
源码复现：
https://github.com/jadore801120/attention-is-all-you-need-pytorch

Model部分源码如下：

class Encoder(nn.Module):
    ''' A encoder model with self attention mechanism. '''

    def __init__(
            self, n_src_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, dropout=0.1, n_position=200, scale_emb=False):

        super().__init__()

        self.src_word_emb = nn.Embedding(n_src_vocab, d_word_vec, padding_idx=pad_idx)
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        self.dropout = nn.Dropout(p=dropout)
        self.layer_stack = nn.ModuleList([
            EncoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, src_seq, src_mask, return_attns=False):

        enc_slf_attn_list = []

        enc_output = self.src_word_emb(src_seq)
        if self.scale_emb:
            enc_output *= self.d_model ** 0.5
        enc_output = self.dropout(self.position_enc(enc_output))
        enc_output = self.layer_norm(enc_output)

        for enc_layer in self.layer_stack:
            enc_output, enc_slf_attn = enc_layer(enc_output, slf_attn_mask=src_mask)
            enc_slf_attn_list += [enc_slf_attn] if return_attns else []

        if return_attns:
            return enc_output, enc_slf_attn_list
        return enc_output,

class Decoder(nn.Module):
    ''' A decoder model with self attention mechanism. '''

    def __init__(
            self, n_trg_vocab, d_word_vec, n_layers, n_head, d_k, d_v,
            d_model, d_inner, pad_idx, n_position=200, dropout=0.1, scale_emb=False):

        super().__init__()

        self.trg_word_emb = nn.Embedding(n_trg_vocab, d_word_vec, padding_idx=pad_idx)
        self.position_enc = PositionalEncoding(d_word_vec, n_position=n_position)
        self.dropout = nn.Dropout(p=dropout)
        self.layer_stack = nn.ModuleList([
            DecoderLayer(d_model, d_inner, n_head, d_k, d_v, dropout=dropout)
            for _ in range(n_layers)])
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.scale_emb = scale_emb
        self.d_model = d_model

    def forward(self, trg_seq, trg_mask, enc_output, src_mask, return_attns=False):

        dec_slf_attn_list, dec_enc_attn_list = [], []

        dec_output = self.trg_word_emb(trg_seq)
        if self.scale_emb:
            dec_output *= self.d_model ** 0.5
        dec_output = self.dropout(self.position_enc(dec_output))
        dec_output = self.layer_norm(dec_output)

        for dec_layer in self.layer_stack:
            dec_output, dec_slf_attn, dec_enc_attn = dec_layer(
                dec_output, enc_output, slf_attn_mask=trg_mask, dec_enc_attn_mask=src_mask)
            dec_slf_attn_list += [dec_slf_attn] if return_attns else []
            dec_enc_attn_list += [dec_enc_attn] if return_attns else []

        if return_attns:
            return dec_output, dec_slf_attn_list, dec_enc_attn_list
        return dec_output,

class Transformer(nn.Module):
    ''' A sequence to sequence model with attention mechanism. '''

    def __init__(
            self, n_src_vocab, n_trg_vocab, src_pad_idx, trg_pad_idx,
            d_word_vec=512, d_model=512, d_inner=2048,
            n_layers=6, n_head=8, d_k=64, d_v=64, dropout=0.1, n_position=200,
            trg_emb_prj_weight_sharing=True, emb_src_trg_weight_sharing=True,
            scale_emb_or_prj='prj'):

        super().__init__()

        self.src_pad_idx, self.trg_pad_idx = src_pad_idx, trg_pad_idx

        assert scale_emb_or_prj in ['emb', 'prj', 'none']
        scale_emb = (scale_emb_or_prj == 'emb') if trg_emb_prj_weight_sharing else False
        self.scale_prj = (scale_emb_or_prj == 'prj') if trg_emb_prj_weight_sharing else False
        self.d_model = d_model

        self.encoder = Encoder(
            n_src_vocab=n_src_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=src_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.decoder = Decoder(
            n_trg_vocab=n_trg_vocab, n_position=n_position,
            d_word_vec=d_word_vec, d_model=d_model, d_inner=d_inner,
            n_layers=n_layers, n_head=n_head, d_k=d_k, d_v=d_v,
            pad_idx=trg_pad_idx, dropout=dropout, scale_emb=scale_emb)

        self.trg_word_prj = nn.Linear(d_model, n_trg_vocab, bias=False)

        for p in self.parameters():
            if p.dim() > 1:
                nn.init.xavier_uniform_(p)

        assert d_model == d_word_vec, \
        'To facilitate the residual connections, \
         the dimensions of all module outputs shall be the same.'

        if trg_emb_prj_weight_sharing:

            self.trg_word_prj.weight = self.decoder.trg_word_emb.weight

        if emb_src_trg_weight_sharing:
            self.encoder.src_word_emb.weight = self.decoder.trg_word_emb.weight

    def forward(self, src_seq, trg_seq):

        src_mask = get_pad_mask(src_seq, self.src_pad_idx)
        trg_mask = get_pad_mask(trg_seq, self.trg_pad_idx) & get_subsequent_mask(trg_seq)

        enc_output, *_ = self.encoder(src_seq, src_mask)
        dec_output, *_ = self.decoder(trg_seq, trg_mask, enc_output, src_mask)
        seq_logit = self.trg_word_prj(dec_output)
        if self.scale_prj:
            seq_logit *= self.d_model ** -0.5

        return seq_logit.view(-1, seq_logit.size(2))

Original: https://blog.csdn.net/weixin_39490300/article/details/123168345
Author: 易烊千蝈
Title: 处理时间序列数据的高端模型Transformer和Pytorch代码实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528158/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

nn.AvgPool2d——二维平均池化操作

torch.nn.AvgPool2d( kernel_size , stride=None , padding=0 , ceil_mode=False , count_includ…

人工智能 2023年7月21日
0073
机器学习–聚类算法之mean shift

聚类算法之mean shift 1. mean shift的概念 2. 算法解析 * 2.1 算法流程 2.2 算法公式 3.mean shift的应用场景 4.实例分析 mean…

人工智能 2023年6月2日
0069
sns.countplot() 画条形图

sns.countplot() 用于画类别特征的频数条形图。函数中的参数如图所示： sns.countplot(x=None, y=None, hue=None, data=No…

人工智能 2023年7月6日
0071
多节点什么网络取得技术性突破_智能家居网关功能这么多，你都知道吗？

在科技发展的今天，我们的生活也趋于智能化，智能家居迎来了新时代。 [En] Today, with the development of science and technolog…

人工智能 2023年5月27日
0071
mmdetection的训练、调试和测试

文章目录前言一、训练二、调试 * – 1.通过pycharm里的调试器调试 2.通过控制台调试测试 tools 前言 mmdetection的训练、调试和测试操…

人工智能 2023年7月22日
0048
yolov7基础知识先导篇

免责声明:1\此方法仅提供参考2\搬了其他博主的操作方法,以贴上路径.3* 场景一:MP 场景二:高效聚合网络场景三:SPPCSPC 场景四:结构重参数化场景五:标签分配–&g…

人工智能 2023年6月17日
0055
YOLOv4网络详解

论文名称：YOLOv4: Optimal Speed and Accuracy of Object Detection论文下载地址：https://arxiv.org/abs/20…

人工智能 2023年7月28日
0061
跟数据打交道的人都得会的这8种数据模型，满足工作中95%的需求

“小王，你把这些用户数据分析下，分别打个价值标签给我，我们制定一下618的营销活动。” 这时候你拿着用户数据一脸懵？打标签？从哪几个维度？脑海里仿佛有很多想…

人工智能 2023年7月16日
0054
论文解读BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation,

简介众所周知bert的encoder 形式不适合做生成式任务。transformer decode形式在生成式方面有着非常好的表现。bart 基本就是一个标准的sequence …

人工智能 2023年5月28日
0061
BERT学习—01.tensorflow的bert转换为pytorch的bert

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0075
切比雪夫（Chebyshev）不等式

标准化设随机变量x具有数学期望E ( x ) = μ E(x) = \mu E (x )=μ，方差D ( x ) = σ 2 D(x) = \sigma^{2}D (x )=σ2…

人工智能 2023年7月26日
0036
Pytorch CIFAR10图像分类 Vision Transformer（ViT）篇

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月27日
0066
TensorFlow基本概念与常用函数

TensorFlow基本概念与常用函数文章目录 TensorFlow基本概念与常用函数 * 一：张量 – (一)：张量概念 (二)：TensorFlow中的数据类型 …

人工智能 2023年5月25日
0062
图片分类的入门：二分类

作为深度学习的入门，先来讲一下简单的猫狗分类。深度学习：训练数据集，让计算机精准识别这个是猫还是狗。猫狗识别： 1、数据预处理：准备训练集和测试集 2、卷积神经网络模型：构建网…

人工智能 2023年7月2日
0068
AI 一键去背景

本文介绍如何使用 rembg 库去除图片背景，并解决其使用过程中的一些问题。rembg 库：https://pypi.org/project/rembg/ 上一篇文章介绍了如何通过…

人工智能 2023年6月24日
0060
【并发编程】线程池及Executor框架

文章目录 * – + * 1.为什么要使用线程池 * 2.线程池创建线程 * 3.ThreadPoolExecutor类 * 4.深入剖析线程池实现原理 * 5.线程池…

人工智能 2023年6月27日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

处理时间序列数据的高端模型Transformer和Pytorch代码实现

目录

; 1.self-attention 具体原理

2.多头注意力机制

3.Decoder

大家都在看