pytorch 注意力机制

2023年7月22日下午11:57 • 人工智能 • 阅读 76

注意力机制：

父母在学校门口接送孩子的时候，可以在人群中一眼的发现自己的孩子，这就是一种注意力机制。
为什么父母可以在那么多的孩子中，找到自己的孩子？
比如现在有100个孩子，要被找的孩子 发型是平头，个子中等，不戴眼镜，穿着红色上衣，牛仔裤
通过对这些特征，就可以对这100个孩子进行筛选，最后剩下的孩子数量就很少了，就是这些特征的存在，使得父母的注意力会主要放在有这些特征的孩子身上，这就是注意力机制。

注意力机制
Query 被找孩子的特征
Key 100个孩子，通过特征进行筛选，得到这100个孩子的可能性
Value 100个孩子中，找到自己孩子的可能性

attention = softmax(Q、K之间进行计算) * V
Q、K之间的计算方式不同，这就导致了不同的注意力机制。

最后一种就是Transformer中的一种注意力的计算机制。

; 实际应用中的理解

一般在自然语言处理应用里会把Attention模型看作是输出Target句子中某个单词和输入Source句子每个单词的对齐模型。
目标句子的每个单词与输入句子中的每个单词计算权重，计算注意力权重
类似于机器翻译中的短语对齐步骤

可以看到里面的 Q K V
QK之间的计算就是计算QK之间的相关性，或者说特征的相似性
这样就可以得到每个key对应的value的权重系数，然后与V相乘

Lx=||Source||代表Source的长度

计算过程

1.计算QK之前的相似度

2.softmax 归一化
3.对value进行加权求和**

; 代码实现

第一步：根据注意力计算规则，对Q，K，V进行相应的计算.

第二步：根据第一步采用的计算方法，如果是拼接方法，则需要将Q与第二步的计算结果再进行拼接，如果是转置点积，一般是自注意力，Q与V相同，则不需要进行与Q的拼接.

第三步：最后为了使整个attention机制按照指定尺寸输出，使用线性层作用在第二步的结果上做一个线性变换，得到最终对Q的注意力表示

第一步就是使用第一种计算的方式，获取注意力机制的权重，就是上边所说的孩子的特征占100个孩子权重
第三部就是为了获得指定尺寸的输出

import torch
from torch import nn
import torch.nn.functional as F

class Attention(nn.Module):
    def __init__(self,query_size, key_size, value_size1, value_size2, output_size):
        super(Attention, self).__init__()
        self.query_size = query_size
        self.key_size = key_size
        self.value_size1 = value_size1
        self.value_size2 = value_size2
        self.output_size = output_size

        self.attn = nn.Linear(self.query_size + self.key_size, self.value_size1)

        self.attn_combine = nn.Linear(self.query_size + self.value_size2, self.output_size)

    def forward(self, Q, K, V):

        attn_weights = F.softmax(self.attn(torch.cat((Q[0], K[0]), 1)), dim=1)

        attn_applied = torch.bmm(attn_weights.unsqueeze(0), V)

        output = torch.cat((Q[0], attn_applied[0]), 1)

        output = self.attn_combine(output).unsqueeze(0)
        return output, attn_weights

query_size = 32
key_size = 32
value_size1 = 32
value_size2 = 64
output_size = 64
attn = Attention(query_size, key_size, value_size1, value_size2, output_size)
Q = torch.randn(1, 1, query_size)
print("---")
K = torch.randn(1, 1, key_size)
print(torch.cat((Q[0], K[0]), 1).shape)
V = torch.randn(1, value_size1, value_size2)
out = attn(Q, K, V)

Original: https://blog.csdn.net/qq_39753950/article/details/125791872
Author: yhbetter
Title: pytorch 注意力机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709802/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用sklearn中的KNN以及自己编写的纯python原生KNN对鸢尾花数据集进行最近邻分类

日期 2022/8/28 功能调用 scikit-learn 自带 KNN 分类器对鸢尾花数据集进行分类自己编写 KNN 分类器对鸢尾花数据集进行分类对 K 的取值对于准确率…

人工智能 2023年7月2日
0070
python 两个dataframe 相关性计算_根据列值计算两个pandas dataframe之间的值

编辑：让我复制整个数据集 df是门店销售/库存数据branch daqu store store_name style color size stocked sold in_sto…

人工智能 2023年7月8日
0099
Opencv开发与应用—维纳滤波的算法实现及对比

在许多实际情况下，由于配准传感器的物理限制，由信息处理系统记录的图像数据含有不精确性。在加性高斯噪声的情况下，这种图像退化通常可以用线性模糊来描述。为了能够分辨不同滤波器以及各个滤…

人工智能 2023年7月20日
0073
网关Gateway-快速上手

gateway网关官方文档: https://docs.spring.io/spring-cloud-gateway/docs/current/reference/html/# 网…

人工智能 2023年6月29日
0089
trajectron++

相关概念 spatiotemporal graph 时空图时空地图，又称Minkowski地图，用来表示Minkowski时空中事件的坐标。它是理解狭义相对论现象的工具。 [En…

人工智能 2023年5月27日
0093
怎样提高英语思维能力?

怎样提高英语思维能力? 英语思维能力随着语音、词汇、语法知识的掌握和听、说、读、写技能的形成而逐步发展。 [En] English thinking ability develop…

人工智能 2023年5月27日
00125
图卷积神经网络GCN、GAT的原理及Pytorch实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月20日
0051
梯度下降应用举例

梯度下降应用举例一、梯度下降法求解LASSO问题LASSO问题的原始形式为：min ⁡ f ( x ) = 1 2 ∥ A x − b ∥ 2 + μ ∥ x ∥ 1 (1) \…

人工智能 2023年6月22日
0079
欧式聚类（C++编写实现＜不需要任何库＞）

欧式聚类（C++编写实现简介：本项目应用背景：点云数在1000个以内，但需要使用欧式聚类，故过程中未使用建树过程，针对实际项目接口编写，此项目数据结构 (struct OBJ…

人工智能 2023年6月2日
0091
计算机视觉项目实战-图像特征检测harris、sift、特征匹配

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年5月26日
00104
Dataloader的使用

本文主要使用CIFAR10数据集来讲解Dataloader的使用方法，并写入tensorboard中，可以更好的去查看。在pytorch中如何读取数据主要有两个类，分别是Data…

人工智能 2023年6月17日
0081
审稿人看了直呼内行：多组学整合分析——科研小白进阶之路

一、什么是多组学整合分析多组学整合分析随着高通量技术的广泛应用而生，研究人员可以从基因组、转录组、蛋白质组、交互组、表观基因组、代谢组、脂质体和微生物组等不同分子层面大规模获取组…

人工智能 2023年7月16日
0078
数字图像处理（2）—OPENCV–学习笔记（颜色，色域，控制条）

文章目录前言一、数字图像处理—–色彩空间？二、图形绘制，RGB等色域 1.颜色空间转化 2.mat 数据结构，ndarray,深浅拷贝 3.颜色通道分…

人工智能 2023年6月22日
0096
产品更新｜用于语音压缩的新型极低比特率编解码器，Lyra 长什么样？

文 / 软件工程师 Alejandro Luebs 和 Chrome 产品经理 Jamieson Brettle 通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分，这得益于…

人工智能 2023年5月27日
00125
【matlab图像处理】插值方法

中国史之【懿王攻犬戎】：周懿（yi）王攻打犬戎的战争。周懿王在位时期，西周衰弱，戎族不断入侵周朝，一度打到镐（今陕西西安）、岐（今陕西岐县）等地，懿王被迫迁都槐里（今陕西兴平县）。…

人工智能 2023年6月20日
0099
一文速学-时间序列分析算法之指数平滑法详解+Python代码实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch 注意力机制

注意力机制：

; 实际应用中的理解

计算过程

; 代码实现

大家都在看