Transformer多头注意力机制实现数字预测（pytorch）

2023年7月22日上午6:40 • 人工智能 • 阅读 73

transformer模型起初被提出于2017年google的《Attention ls All you Need》中。论文路径：[pdf]

transformer完全抛弃了CNN，RNN模型结构。起初主要应用在自然语言处理中，后面逐渐应用到了计算机视觉中。

仅仅通过注意力机制（self-attention）和前向神经网络（Feed Forward Neural Network），不需要使用序列对齐的循环架构就实现了较好的performance 。

（1）摒弃了RNN的网络结构模式，其能够很好的并行运算；

（2）其注意力机制能够帮助当前词获取较好的上下文信息。

本文主要用于弥补Transformer在时间序列数据预测案例较为缺失，通过小样本数字预测，给后续Transformer研究人员提供时序数据研究思路。

算法主要实现，数数功能，例如给出序列1，2，3，4 预期希望机器应答5，6，7。

数据样本（shu.csv）

训练代码

#!/usr/bin/env python3
encoding: utf-8
"""
@Time    : 2021/7/7 20:03
@Author  : Xie Cheng
@File    : train_transformer.py
@Software: PyCharm
@desc: transformer训练
"""
import sys
sys.path.append("../")

import torch
from torch import nn
from torch.utils.data import DataLoader
import numpy as np
from torch.autograd import Variable

from myfunction import MyDataset
from Transformer.transformer import TransformerTS

device GPU or CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print('You are using: ' + str(device))

batch size
batch_size_train = 7
out_put_size = 3

data_bound = batch_size_train - out_put_size

total epoch(总共训练多少轮)
total_epoch = 1000

1. 导入训练数据
filename = '../data/shu.csv'
dataset_train = MyDataset(filename)
train_loader = DataLoader(dataset_train, batch_size=batch_size_train, shuffle=False, drop_last=True)

2. 构建模型，优化器
tf = TransformerTS(input_dim=1,
                   dec_seq_len=batch_size_train-out_put_size,
                   out_seq_len=out_put_size,
                   d_model=32,  # 编码器/解码器输入中预期特性的数量
                   nhead=8,
                   num_encoder_layers=3,
                   num_decoder_layers=3,
                   dim_feedforward=32,
                   dropout=0.1,
                   activation='relu',
                   custom_encoder=None,
                   custom_decoder=None).to(device)

optimizer = torch.optim.Adam(tf.parameters(), lr=0.001)
#scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=2000, gamma=0.1)  # Learning Rate Decay
criterion = nn.MSELoss()  # mean square error
train_loss_list = []  # 每次epoch的loss保存起来
total_loss = 31433357277  # 网络训练过程中最大的loss

3. 模型训练
def train_transformer(epoch):
    global total_loss
    mode = True
    tf.train(mode=mode)  # 模型设置为训练模式
    loss_epoch = 0  # 一次epoch的loss总和
    for idx, (sin_input, _) in enumerate(train_loader):
        sin_input_np = sin_input.numpy()[:data_bound]  # 1D
        cos_output = sin_input[data_bound:]

        sin_input_torch = Variable(torch.from_numpy(sin_input_np[np.newaxis, :, np.newaxis]))  # 3D

        prediction = tf(sin_input_torch.to(device))  # torch.Size([batch size])
        loss = criterion(prediction, cos_output.to(device))  # cross entropy loss
        optimizer.zero_grad()  # clear gradients for this training step
        loss.backward()  # back propagation, compute gradients
        optimizer.step()  # apply gradients
        #scheduler.step()
        #print(scheduler.get_lr())

        loss_epoch += loss.item()  # 将每个batch的loss累加，直到所有数据都计算完毕
        if idx == len(train_loader) - 1:
            print('Train Epoch:{}\tLoss:{:.9f}'.format(epoch, loss_epoch))
            train_loss_list.append(loss_epoch)
            if loss_epoch < total_loss:
                total_loss = loss_epoch
                torch.save(tf, '..\\model\\tf_model2.pkl')  # save model

if __name__ == '__main__':
    # 模型训练
    print("Start Training...")
    for i in range(total_epoch):  # 模型训练1000轮
        train_transformer(i)
    print("Stop Training!")

训练后1000轮，LOSS函数选用MSE 训练误差从1000多降低到大概1左右的误差率

预测代码

#!/usr/bin/env python3
encoding: utf-8
"""
@Time    : 2021/7/7 20:45
@Author  : Xie Cheng
@File    : test_transformer.py
@Software: PyCharm
@desc: transformer 测试
"""

import sys
sys.path.append("../")

import torch
from torch import nn
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader

from myfunction import MyDataset

device GPU or CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print('You are using: ' + str(device))

batch size
batch_size_test = 7
out_put_size = 3

data_bound = batch_size_test - out_put_size

导入数据
filename = '../data/shu.csv'
dataset_test = MyDataset(filename)
test_loader = DataLoader(dataset_test, batch_size=batch_size_test, shuffle=False, drop_last=True)

criterion = nn.MSELoss()  # mean square error

rnn 测试
def test_rnn():
    net_test = torch.load('..\\model\\tf_model2.pkl')  # load model
    test_loss = 0
    net_test.eval()
    with torch.no_grad():
        for idx, (sin_input, _) in enumerate(test_loader):
            sin_input_np = sin_input.numpy()[:data_bound]  # 1D
            cos_output = sin_input[data_bound:]

            sin_input_torch = torch.from_numpy(sin_input_np[np.newaxis, :, np.newaxis])  # 3D
            prediction = net_test(sin_input_torch.to(device))  # torch.Size([batch size])
            print("-------------------------------------------------")
            print("输入:", sin_input_np)
            print("预期输出:", cos_output)
            print("实际输出:", prediction)
            print("~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~")
            if idx == 0:
                predict_value = prediction
                real_value = cos_output
            else:
                predict_value = torch.cat([predict_value, prediction], dim=0)
                real_value = torch.cat([real_value, cos_output], dim=0)

            loss = criterion(prediction, cos_output.to(device))
            test_loss += loss.item()

    print('Test set: Avg. loss: {:.9f}'.format(test_loss))
    return predict_value, real_value

if __name__ == '__main__':
    # 模型测试
    print("testing...")
    p_v, r_v = test_rnn()

    # 对比图
    plt.plot(p_v.cpu(), c='green')
    plt.plot(r_v.cpu(), c='orange', linestyle='--')
    plt.show()
    print("stop testing!")

从实际输出看，结果接近预期输出。

预测与实际输出对比曲线：

宗上所述，Transformer完成了简单的数数功能。

训练精度可以随训练次数，和学习率的修改，进一步提高，这里笔者不一一尝试

完整代码 github:https://github.com/fengjun321/Transformer_count.git

Original: https://blog.csdn.net/u013177138/article/details/124695450
Author: 疯狂的布布
Title: Transformer多头注意力机制实现数字预测（pytorch）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708567/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

概率还不会的快看过来《统计学习方法》——第四章、朴素贝叶斯法

作者简介：整个建筑最重要的是地基，地基不稳，地动山摇。而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。博客主页：七归的博客收录专栏：《统计学习方法》第二版——个人笔记南来…

人工智能 2023年6月23日
0091
有监督学习（supervised learning)）与无监督学习（unsupervised learning）之间有何区别?

机器学习中存在着三类模型，有监督学习、无监督学习和半监督学习，他们有何区别呢？其实有无标签是区分监督学习与无监督学习的关键，这里的有无标签，指的是有没有事前确定标签。有监督机器…

人工智能 2023年5月31日
0080
文献精讲–红外小目标检测之Local Contrast Measure（局部对比度测量）原理篇

文献精讲–红外小目标检测之Local Contrast Measure（局部对比度测量）原理篇一万年没有更新过文章了，正好赶上研究生开学，为了憋一篇质量高一点的paper，最近在…

人工智能 2023年6月22日
00104
机器学习中的数学——距离定义（二十六）：Wasserstein距离（Wasserstei Distance）/EM距离（Earth-Mover Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月23日
0080
二十一. 智能驾驶之基于视觉识别和点云聚类的障碍物检测

一. 背景介绍在智能驾驶领域, 根据使用的传感器的不同，对障碍物的检测和识别通常有三种做法： 1.一种是基于相机图像和点云鸟瞰图的纯图像障碍物检测, 比如YOLO三维; 2.一种…

人工智能 2023年7月10日
0062
python项目–物流行业项目分析

数据来源：某企业销售的6种商品所对应的送货及用户反馈数据；数据链接:物流行业项目分析数据. 分析过程为：数据清洗数据规整数据分析并可视化准备工作首先导入包和数据，将编码设…

人工智能 2023年7月8日
0090
Unity 科大讯飞离线语音合成

我已经很久没有更新这篇文章了。今天，我们继续更新有关iFLYTEK语音的文章。 [En] I haven’t updated the article for a lon…

人工智能 2023年5月27日
0097
隐藏通知内容什么意思_原来华为手机隐藏5个技巧，难怪别人都说华为好用，涨知识了…

原来华为手机隐藏5个技巧，难怪别人都说华为好用，涨知识了！我们身边的很多朋友已经开始陆续换成华为手机了，所以今天我们就来说说为什么用过华为手机的人都说好用，并整理了6个贴心贴心的…

人工智能 2023年5月27日
00198
【STL】迭代器与容器的使用（11）

容器和适配器都是针对于泛型数据而设计的，所以在使用过程中都需要 “动态地绑定” 数据类型。STL中各种容器适配器的使用基本相同，不同之处也正好体现出它们的特…

人工智能 2023年6月27日
0046
[论文阅读]DARTS

DARTS 来源 ICLR2019。作者单位CMU（Google brain），DeepMind。解决的问题主要解决的是NAS（神经网络架构搜索）的可扩展性的问题。其实主要解决…

人工智能 2023年6月4日
0092
「Python 数据化运营」回归分析线性回归日常总结

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0077
使用Python模拟社会财富分配问题，得出了几个有趣的结论

本文通过简化了社会财富分配的过程，使用Python进行模拟计算，得出了几个有趣的结论。文章目录 * – 1.财富分配模型 – 2.允许借贷会如何呢？ &#…

人工智能 2023年7月16日
0054
Python+OpenCV之图像阈值（二）

threshold(src, thresh, maxval, type[, dst]) -> retval, dst #返回&am…

人工智能 2023年7月19日
0070
【毕业设计】深度学习疲劳检测驾驶行为检测 – python opencv cnn

文章目录 0 前言 1 课题背景 2 相关技术 * 2.1 Dlib人脸识别库 2.2 疲劳检测算法 2.3 YOLOV5算法 3 效果展示 * 3.1 眨眼 3.2 打哈欠 3….

人工智能 2023年6月16日
00104
Pandas之数据读取与储存

一.pandas之读取文件使用Pandas做数据分析时，首先要读取数据。Pandas常用的读取文件有： pd.read_csv() 用于读取csv格式文件 pd.read_exc…

人工智能 2023年7月6日
0063
电商用户消费数据RFM分析

1. 导入数据, 查看数据信息 import pandas as pd import numpy as np import matplotlib.pyplot as plt imp…

人工智能 2023年6月11日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Transformer多头注意力机制实现数字预测（pytorch）

大家都在看