【Dive into Deep Learning / 动手学深度学习】第十章 – 第二节：注意力汇聚：Nadaraya-Watson 核回归

2023年6月18日下午2:35 • 人工智能 • 阅读 111

ଘ(੭ˊᵕˋ)੭
昵称：海轰
标签：程序猿｜C++选手｜学生
简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研
学习经验：扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语！

唯有努力💪

本文仅记录自己感兴趣的内容

10.2. 注意力汇聚：Nadaraya-Watson 核回归

在本节中，我们将介绍注 意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式

具体来说，1964年提出的Nadaraya-Watson核回归模型是一个简单但完整的例子，可以用于演示 具有注意力机制的机器学习

import torch
from torch import nn
from d2l import torch as d2l

10.2.1. 生成数据集

【Dive into Deep Learning / 动手学深度学习】第十章 - 第二节：注意力汇聚：Nadaraya-Watson 核回归

n_train = 50
x_train, _ = torch.sort(torch.rand(n_train) * 5)

def f(x):
    return 2 * torch.sin(x) + x**0.8

y_train = f(x_train) + torch.normal(0.0, 0.5, (n_train,))
x_test = torch.arange(0, 5, 0.1)
y_truth = f(x_test)
n_test = len(x_test)
n_test

Note

def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

10.2.2. 平均汇聚

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

10.2.3. 非参数注意力汇聚

Note

给定一个x x x（query）
首先计算x x x与x i x_i x i （key）之间的权重
然后利用这个权重加权y i y_i y i （value）

Note

这个高斯核可以理解为，利用x x x与x i x_i x i 计算y i y_i y i 应该分配的权重

Note

非参数模型：就是预测结果可用利用之前的数据直接计算出来，不需要额外的参数（学习参数）


X_repeat = x_test.repeat_interleave(n_train).reshape((-1, n_train))

attention_weights = nn.functional.softmax(-(X_repeat - x_train)**2 / 2, dim=1)

y_hat = torch.matmul(attention_weights, y_train)
plot_kernel_reg(y_hat)

现在，我们来观察注意力的权重

这里 测试数据的输入相当于查询，而训练数据的输入相当于键

因为两个输入都是经过排序的，因此由观察可知”查询-键”对越接近，注意力汇聚的注意力权重就越高

d2l.show_heatmaps(attention_weights.unsqueeze(0).unsqueeze(0),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

unsqueeze(0)，在第0维插入一个维，默认为1
连续插入两次，得到（1，1，…）也就是得到行数为1 列数为1（子图的数量，仅此而已）
参考：https://blog.csdn.net/ljwwjl/article/details/115342632

10.2.4. 带参数注意力汇聚

无参数时，完全由现有数据得到结果，需要大量的数据
可用添加一个可学习参数，这样可以通过一些数据进行训练，得到此参数
准确度会提高

; 10.2.4.1. 批量矩阵乘法

X = torch.ones((2, 1, 4))
Y = torch.ones((2, 4, 6))
torch.bmm(X, Y).shape

torch.bmm : 两个tensor的矩阵乘法
(2, 1, 6) = (2,1,4) * (2,4,6)

在注意力机制的背景中，我们可以使用小批量矩阵乘法来 计算小批量数据中的加权平均值。

weights = torch.ones((2, 10)) * 0.1
values = torch.arange(20.0).reshape((2, 10))
torch.bmm(weights.unsqueeze(1), values.unsqueeze(-1))

(2, 1, 1) = (2,1,10) * (2,10, 1)

10.2.4.2. 定义模型

class NWKernelRegression(nn.Module):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)
        self.w = nn.Parameter(torch.rand((1,), requires_grad=True))

    def forward(self, queries, keys, values):

        queries = queries.repeat_interleave(keys.shape[1]).reshape((-1, keys.shape[1]))
        self.attention_weights = nn.functional.softmax(
            -((queries - keys) * self.w)**2 / 2, dim=1)

        return torch.bmm(self.attention_weights.unsqueeze(1),
                         values.unsqueeze(-1)).reshape(-1)

Note

10.2.4.3. 训练


X_tile = x_train.repeat((n_train, 1))

Y_tile = y_train.repeat((n_train, 1))

keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

训练带参数的注意力汇聚模型时，使用平方损失函数和随机梯度下降

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])

for epoch in range(5):
    trainer.zero_grad()
    l = loss(net(x_train, keys, values), y_train)
    l.sum().backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
    animator.add(epoch + 1, float(l.sum()))

如下所示，训练完带参数的注意力汇聚模型后

我们发现：在尝试拟合带噪声的训练数据时，预测结果绘制的线不如之前非参数模型的平滑

为什么新的模型更不平滑了呢？

我们看一下输出结果的绘制图：

与非参数的注意力汇聚模型相比，
带参数的模型加入可学习的参数后， *曲线在注意力权重较大的区域变得更不平滑

d2l.show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0),
                  xlabel='Sorted training inputs',
                  ylabel='Sorted testing inputs')

10.2.5. 小结

; 结语

学习资料： http://zh.d2l.ai/

文章仅作为个人学习笔记记录，记录从0到1的一个过程

希望对您有一点点帮助，如有错误欢迎小伙伴指正

Original: https://blog.csdn.net/weixin_44225182/article/details/126454693
Author: 海轰Pro
Title: 【Dive into Deep Learning / 动手学深度学习】第十章 – 第二节：注意力汇聚：Nadaraya-Watson 核回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635454/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow配置GTX1660Ti+window10

参考文章：配置环境https://segmentfault.com/a/1190000023276876https://blog.csdn.net/Yuan_mingyu/arti…

人工智能 2023年5月24日
0080
pytorch-lightning入门（一）—— 初了解

最近PyTorch Lightning的风很大，来看看为啥它这么火🔥本文主要大致了解一下pytorch-lighting是什么，优点是什么，代码的主要结构。具体细节和案例后面给出。…

人工智能 2023年7月22日
0054
【论文摘要】ImageNet：A Large-Scale Hierarchical Image Database

ImageNet系列1《ImageNet：A Large-Scale Hierarchical Image Database》ImageNet系列2《ImageNet Large …

人工智能 2023年5月28日
0094
SPSS/PROCESS-调节效应

想要学习更多数据分析知识，请关注”数据分析成长记”微信公众号，更多精彩文章等你来读！ 01 模型说明简单回归模型方程为： Y=i+c1X+c2M0+c3X…

人工智能 2023年6月17日
00156
Haar分类器学习笔记

Haar分类器是什么？ Haar分类器 = Haar-like 特征 + 积分图 + AdaBoost + 强分类器的级联 1、Haar-like 特征最基本的Haar-like特…

人工智能 2023年7月1日
0067
pandas的一些用法

pandas的一些常用方法和遇到的小问题 1. pandas读取json文件 2.pandas日期转换 3.pandas写入csv格式文件出现中文乱码问题解决方法 4. pd.Da…

人工智能 2023年7月8日
0063
Python实现数据地址实体抽取

文章目录一、数据地址实体抽取的目的及问题二、方法一：调用ahocorasick库 ahocorasick安装： ahocorasick使用：三、方法一：调用cpca库 1、安…

人工智能 2023年6月1日
0073
NLP：GLUE和SuperGLUE基准的简介、任务分类、使用方法之详细攻略

NLP：自然语言处理常用任务简介、GLUE基准(通用语言理解评估，四类九个)和SuperGLUE基准的简介(国内系列/国际系列)、任务分类、使用方法之详细攻略自然语言处理技术常用…

人工智能 2023年7月3日
00141
在Ubuntu服务器上搭建深度学习环境（Ubuntu 18.04+Anaconda3+pytorch+PyCharm）

回答1： 18.04深度学习需要以下步骤： 1. 安装CUDA和cuDNN：CUDA是NVIDIA提供的用于GPU加速的并行计算平台，cuDNN是NVIDIA提供的用于深度学习的…

人工智能 2023年6月16日
0088
PyTorch常用参数初始化方法详解

torch.nn.init.uniform_(tensor, a=0, b=1) 从均匀分布U(a, b)中采样，初始化张量。参数： * – tensor &#821…

人工智能 2023年6月15日
0081
AI创作教程之如果在自己的电脑上安装Stable Diffusion并进行AI艺术创作创作

我写这篇文章是为了向你展示一种在你的 PC 上本地设置和运行Stable Diffusion的更简单方法。该工具带有图形用户界面 (GUI)，可简化图像生成过程。这就是 Gradi…

人工智能 2023年7月30日
0059
【OpenCV】学习笔记（一）：OpenCV4.5.5文件介绍

文章目录摘要一、简介 * 1.计算机视觉 2.OpenCV 3.OpenCV文件夹二、build文件夹 * 1.bin 2.etc 3.include 4.x64 5.其他 …

人工智能 2023年6月17日
0056
【目标检测】YOLOv6理论解读+实践测试VisDrone数据集

前言本篇博文将简单总结YOLOv6的原理，并使用YOLOv6对VisDrone数据集进行训练。背景 YOLOv6是美团视觉智能部研发的一款目标检测框架，致力于工业应用。根据官方…

人工智能 2023年7月9日
0091
软考-多媒体基础知识

在计算机中，”图”有两种常用的表示形式；一种是被称为”图形”的矢量图，是由叫作矢量的数学对象所定义的直线和曲线等组成的；另一种是被称…

人工智能 2023年5月26日
0051
一元线性回归个人梳理

一元线性回归回归定义：回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联被预测的变量叫做：因变量(dependent variab…

人工智能 2023年6月18日
0055
python excel 数据匹配_python将一个excel表格的数据匹配到另一个表中

python将一个excel表格的数据匹配到另一个表中 python将一个excel表格的数据匹配到另一个表中打开excel表，需要在另一个表中匹配相应学生姓名的学号信息。之前…

人工智能 2023年7月8日
0093

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Dive into Deep Learning / 动手学深度学习】第十章 – 第二节：注意力汇聚：Nadaraya-Watson 核回归

目录

10.2.1. 生成数据集

10.2.2. 平均汇聚

10.2.3. 非参数注意力汇聚

10.2.4. 带参数注意力汇聚

; 10.2.4.1. 批量矩阵乘法

10.2.4.2. 定义模型

10.2.4.3. 训练

10.2.5. 小结

大家都在看