注意力机制 – 注意力汇聚：Nadaraya-Watson核回归

2023年6月18日下午1:09 • 人工智能 • 阅读 94

文章目录

注意力汇聚：Nadaraya-Watson核回归
*
1 – 生成数据集
2 – 平均汇聚
3 – 非参数注意力汇聚
4 – 带参数注意力汇聚
–
5 – 小结

注意力汇聚：Nadaraya-Watson核回归

框架下的注意力机制的主要成分：查询（自主提示）和键（非自主提示）之间交互形成了注意力汇聚，注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。在本节中，我们将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。1964年提出的Nadaraya-Watson核回归模型是⼀个简单但完整的例⼦，可以⽤于演⽰具有注意⼒机制的机器学习

import torch
from torch import nn
from d2l import torch as d2l

1 – 生成数据集

n_train = 50
x_train,_ = torch.sort(torch.rand(n_train) * 5)

def f(x):
    return 2 * torch.sin(x) + x**0.8

y_train = f(x_train) + torch.normal(0.0,0.5,(n_train,))
x_test = torch.arange(0,5,0.1)
y_truth = f(x_test)
n_test = len(x_test)
n_test

下面的函数将绘制所有的训练样本（样本由圆圈表示），不带噪声项的真实数据生成函数f（标记为”Truth”）,以及学习得到的预测函数（标记为”Pred”）

def plot_kernel_reg(y_hat):
    d2l.plot(x_test,[y_truth,y_hat],'x','y',legend=['Truth','Pred'],xlim=[0,5],ylim=[-1,5])
    d2l.plt.plot(x_train,y_train,'o',alpha=0.5);

2 – 平均汇聚

y_hat = torch.repeat_interleave(y_train.mean(),n_test)
plot_kernel_reg(y_hat)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j6TRUXSQ-1662988499736)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107812.svg)]

3 – 非参数注意力汇聚


X_repeat = x_test.repeat_interleave(n_train).reshape((-1,n_train))

attention_weights = nn.functional.softmax(-(X_repeat - x_train)**2 / 2,dim=1)

y_hat = torch.matmul(attention_weights,y_train)
plot_kernel_reg(y_hat)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bHHxRgOe-1662988499737)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107813.svg)]

现在，我们来观察注意力的权重，这里测试数据的输入相当于查询，而训练数据的输入相当于键。因为两个输入都是经过排序的，因此由观察可知，”查询-键”对越接近，注意力汇聚的注意力权重就越高

d2l.show_heatmaps(attention_weights.unsqueeze(0).unsqueeze(0),
                 xlabel='Sorted training inputs',
                 ylabel='Sorted testing inputs')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4R52D1O-1662988499737)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107814.svg)]

4 – 带参数注意力汇聚

; 批量矩阵乘法

X = torch.ones((2,1,4))
Y = torch.ones((2,4,6))

torch.bmm(X,Y).shape

torch.Size([2, 1, 6])

在注意力机制的背景中，我们可以使用小批量矩阵乘法来计算小批量数据中的加权平均值

weights = torch.ones((2,10)) * 0.1
values = torch.arange(20.0).reshape((2,10))
torch.bmm(weights.unsqueeze(1),values.unsqueeze(-1))

tensor([[[ 4.5000]],

        [[14.5000]]])

定义模型

基于带参数的注意力汇聚，使用小批量矩阵乘法，定义Nadaraya-Watson核回归的带参数版本为：

class NWKernelRegression(nn.Module):
    def __init__(self,**kwargs):
        super().__init__(**kwargs)
        self.w = nn.Parameter(torch.rand((1,),requires_grad = True))

    def forward(self,queries,keys,values):

        queries = queries.repeat_interleave(keys.shape[1]).reshape((-1,keys.shape[1]))
        self.attention_weights = nn.functional.softmax(
            -((queries - keys) * self.w)**2 /2 ,dim=1)

        return torch.bmm(self.attention_weights.unsqueeze(1),
                        values.unsqueeze(-1)).reshape(-1)

训练

接下来，将训练数据集变换为键和值用于训练注意力模型。在带参数的注意力汇聚模型中，任何一个训练样本的输入都会和除自己以外的所有训练样本的”键-值”对进行计算，从而得到其对应的预测输出


X_tile = x_train.repeat((n_train,1))

Y_tile = y_train.repeat((n_train,1))

keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape((n_train, -1))

训练带参数的注意力汇聚模型时，使用平方损失函数和随机梯度下降

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(),lr=0.5)
animator = d2l.Animator(xlabel='epoch',ylabel='loss',xlim=[1,5])

for epoch in range(5):
    trainer.zero_grad()
    l = loss(net(x_train,keys,values),y_train)
    l.sum().backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
    animator.add(epoch + 1, float(l.sum()))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5nsQsico-1662988499738)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107815.svg)]

如下所示，训练完带参数的注意力汇聚模型后，我们发现：在尝试拟合带噪声的训练数据时，预测结果绘制的线不如之前非参数模型的平滑


keys = x_train.repeat((n_test, 1))

values = y_train.repeat((n_test, 1))
y_hat = net(x_test, keys, values).unsqueeze(1).detach()
plot_kernel_reg(y_hat)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V9IQPxat-1662988499738)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107816.svg)]

为什么新的模型更不平滑了呢？我们看一下输出结果的绘制图：与非参数的注意力汇聚模型相比，带参数的模型加入可学习的参数后，曲线在注意力权重较大的区域变得更不平滑

d2l.show_heatmaps(net.attention_weights.unsqueeze(0).unsqueeze(0),
                xlabel='Sorted training inputs',
                ylabel='Sorted testing inputs')

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rRT7kL7O-1662988499738)(https://yingziimage.oss-cn-beijing.aliyuncs.com/img/202209122107817.svg)]

5 – 小结

Nadaraya-Watson核回归时具有注意力机制的机器学习范例
Nadaraya-Watson核回归的注意⼒汇聚是对训练数据中输出的加权平均。从注意力的角度来看，分配给每个值的注意力权重取决于你将值所对应的键核查询作为输入的函数
注意力汇聚可以分为非参数型核带参数型

Original: https://blog.csdn.net/mynameisgt/article/details/126823006
Author: 未来影子
Title: 注意力机制 – 注意力汇聚：Nadaraya-Watson核回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/635210/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV之稠密光流

介绍参考链接在OpenCV中，光流分为稀疏光流和稠密光流，关于稀疏光流可以参考之前的文章OpenCV之光流稠密光流的解释，可以参考OpenCV官方文档 OpenCV提供了另一…

人工智能 2023年6月26日
0067
【一起入门NLP】中科院自然语言处理作业一：RNN,DNN,CNN 进行猫狗分类（pytorch入门）【代码+报告】

学校自然语言处理的第一次大作业，之前没有过python基础，更不会pytorch，花了些功夫算是勉强完成了作业，用这篇博客记录一下。代码不够好，模型准确率也不够高，算是提供一个小白…

人工智能 2023年6月17日
0081
LeetCode — 1431. Kids With the Greatest Number of Candies 解题报告

There are n kids with candies. You are given an integer array candies, where each candies[…

人工智能 2023年6月28日
0059
新加坡设自动巡逻机器人,助力城市精细化治理

近日新加坡对两个名为”泽维尔”的人工智能机器人进行为期三周的城市精细化管理实验，让人工智能机器人在城市中巡逻，去发现一些”不受欢迎的社会行为&#…

人工智能 2023年7月17日
0047
OpenCV + Kotlin 实现 USB 摄像头(相机)实时画面、拍照

pexels-regina-trissteria-13623557.jpg Part1一. 业务背景我们团队前段时间做了一款小型的智能硬件，它能够自动拍摄一些商品的图片，这些图片…

人工智能 2023年7月19日
0054
k均值的损失函数_[机器学习][K-Means] 无监督学习之K均值聚类

有监督学习虽然高效、应用范围广，但最大的问题就是需要大量的有标签的数据集，但现实生活中我们遇到的大量数据都是没有明确标签的，而且对于庞大的数据集进行标注工作本身也是一项费时费力的工…

人工智能 2023年6月2日
0058
电信保温杯笔记——《统计学习方法（第二版）——李航》第14章聚类方法

电信保温杯笔记——《统计学习方法（第二版）——李航》第14章聚类方法介绍聚类的基本概念 * 样本的相似度或距离 – 闵可夫斯基距离马哈拉诺比斯距离相关系数夹…

人工智能 2023年5月31日
0098
到底什么是模型预测控制MPC（一）

为什么使用MPC控制在浏览文章的时候，很多文章都是基于MPC来做的。那么究竟什么是模型预测呢？模型预测也可以说是一种我们熟悉的反馈控制算法，其目的就是预测出未来的输出。以一个生…

人工智能 2023年6月16日
0092
树莓派11bullseye换源/Opencv安装

前情梗概：笔者最近在用树莓派4B做毕设，在树莓派官网下载了树莓派11bullseye的镜像，但按照现有的网上教程操作换源下载多次失败，但不换源的话则因为网速原因完全无法下载，因为笔…

人工智能 2023年7月18日
00151
清华姚班陈丹琦等27位华人学者获奖，斯隆奖2022年获奖名单颁布

近日，素有”诺奖风向标”之称的斯隆研究奖颁布了2022年获奖名单。斯隆研究奖于1955年设立，每年颁发一次，旨在支持和奖励处于职业生涯早期的杰出科学家和学者…

人工智能 2023年5月28日
00132
pandas|DataFrame.append

文章目录 * – + 1. append dict + 2. append series + 3. append list + 4. append array + 5….

人工智能 2023年7月16日
0073
RK3568平台开发系列讲解（调试篇）如何跟踪系统事件

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0058
只要5秒就能“克隆”本人语音！美玉学姐不再查寝，而是吃起了桃桃丨开源

博雯萧箫发自凹非寺量子位报道 | 公众号 QbitAI 现在，AI已经能克隆任意人的声音了！比如，前一秒的美玉学姐还在宿舍查寝：后一秒就打算吃个桃桃：简直就是鬼畜区…

人工智能 2023年7月28日
0064
Vant组件库引入阿里矢量图添加自己喜欢的 ICON

📃目录跳转 * – 一.矢量图下载 – + 💨使用CDN方式 + 🎉下载本地（推荐） – 二.Vant引入Icon🗺️ – + 🎃 …

人工智能 2023年6月30日
00106
python视频操作——python实现读取和保存视频

python读取和保存视频内容来自博客+博客~ 读取视频用cv2库的好处是返回的就是arrary，不用转换，但这种方法是从头读到尾利用cv2库读取视频，代码实现如下： imp…

人工智能 2023年6月19日
00135
关于 FLOPS、FLOPs、参数量的相关计算

最近找到一些计算FLOPs的文章，奈何全是水文，讲都讲不清楚，完完全全的究极缝合怪。因此，这里准备彻底搞懂。 2023.3.12更新： FLOPS：全称：FLoating poin…

人工智能 2023年5月26日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30