1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)

通过 pytorch 去构建一个 transformer 的框架

不是导包,不是调包侠

注意力机制是一个很宽泛(宏大)的一个概念,QKV 相乘就是注意力,但是他没有规定 QKV是怎么来的

通过一个查询变量 Q,去找到 V 里面比较重要的东西

假设 K==V,然后 QK 相乘求相似度A,然后 AV 相乘得到注意力值Z,这个 Z 就是 V 的另外一种形式的表示

Q 可以是任何一个东西,V 也是任何一个东西, K往往是等同于 V 的(同源),K和 V 不同源不相等可不可以

他没有规定 QKV 怎么来,他只规定 QKV 怎么做

自注意力机制,特别狭隘,属于注意力机制的,注意力机制包括自注意力机制的

本质上 QKV 可以看做是相等的

对于一个词向量(不一定准确),做的是空间上的对应,乘上了参数矩阵,依然代表 X

不仅规定了 QKV 同源,而且固定了 QKV 的做法

Q 和 V 不同源,但是 K 和 V 同源

Q 和 V 同源,Q 和 K 不同源

Q 必须为 1,K 和 V 不同源

Original: https://www.cnblogs.com/nickchen121/p/16514033.html
Author: 二十三岁的有德
Title: 1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/552816/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • HDU 4833 Best Financing (DP)

    Time Limit: 20000/10000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Su…

    技术杂谈 2023年5月30日
    079
  • 【工作记录】JDBC连接MySQL,跨时区调查CST转Asia/Shangha

    根据业务要求,不同的国家设置jvm参数,来确定当前时区。 // -Duser.timezone=Asia/Kolkata 印度&…

    技术杂谈 2023年7月10日
    078
  • 平台接口建设规范

    建设目标 平台接口建设规范旨在为接口开发、测试、使用划定一个框架边界,明确技术目标与要求,并要求提供完备的接口文档说明,为自有平台与第三方平台提供数据及服务支持。 建设标准 接口规…

    技术杂谈 2023年7月25日
    087
  • windows下的Sonarqube+Sonar-Scanner简单入门配置

    参考:https://blog.csdn.net/weixin_40496191/article/details/120250953https://www.cnblogs.com/…

    技术杂谈 2023年7月24日
    078
  • 【服务器管理】使用Docker部署的项目修复nginx安全漏洞(CVE-2021-23017)

    本博客主要记录使用Docker部署的前端项目修复nginx 安全漏洞(CVE-2021-23017)的过程。 漏洞报告 根据网上查阅的资料,该漏洞波及的版本为0.6.18-1.20…

    技术杂谈 2023年7月24日
    074
  • 树莓派远程连接工具SSH使用教程

    树莓派远程连接工具SSH使用教程 树莓派 背景故事 树莓派作为一款迷你小主机,大部分的使用场景都会用到远程调试,远程调试用到最多的方式一般就是VNC和SSH,SSH就是命令行型的远…

    技术杂谈 2023年7月23日
    083
  • Elasticsearch5.0 安装问题集锦

    elasticsearch 5.0 安装过程中遇到了一些问题,通过查找资料几乎都解决掉了,这里简单记录一下 ,供以后查阅参考,也希望可以帮助遇到同样问题的你。 问题一:警告提示 […

    技术杂谈 2023年6月1日
    083
  • 初等数论学习笔记 III:数论函数与筛法

    初等数论学习笔记 I:同余相关。 初等数论学习笔记 II:分解质因数。 1. 数论函数 本篇笔记所有内容均与数论函数相关。因此充分了解各种数论函数的名称,定义,符号和性质是必要的。…

    技术杂谈 2023年6月21日
    0114
  • PyTorch 介绍 | 优化模型参数

    既然已经有模型和数据了,是时候在数据上优化模型参数来训练、验证和测试它了。模型训练是一个迭代过程;在每一次迭代( epoch),模型会作出一个预测,计算其预测误差( loss),收…

    技术杂谈 2023年7月25日
    071
  • 批量执行失败的Power Automate 流程

    概述 Power Automate 是一个云端的服务,它可以让我们很方便地定义流程,这些流程可以根据事件触发、手工运行、被程序调用、定时运行等,设计这种流程不需要编程能力,它内置了…

    技术杂谈 2023年5月31日
    086
  • [转]Perform a JQL Search in ScriptRunner for Jira

    Cloud Use this script in the Script Console to update the value of a system field for all …

    技术杂谈 2023年5月30日
    0102
  • 深入C++04:模板编程

    📕模板编程 函数模板 模板意义:对类型也进行参数化; 函数模板:是不编译的,因为类型不知道 模板的实例化:函数调用点进行实例化,生成模板函数 模板函数:这才是要被编译器所编译的 函…

    技术杂谈 2023年7月25日
    0100
  • 古传拳经拳法秘要

    《古传拳经拳法秘要》(手抄本) 国术馆 2022-05-05 18:33 更多珍贵拳谱资料 关注公众号”老拳谱” 勿使前辈之遗珍失于我手 点击图片了解与报名…

    技术杂谈 2023年5月31日
    074
  • 个人学习-STL:Set前置-tree

    参考资料: [1]程杰.大话数据结构[M]. [2][美]Robert Sedgewic,Jevin Wayne. 算法Algorithms[M].谢路云译 1.基本脉络: 树实际…

    技术杂谈 2023年6月21日
    0121
  • Java — 枚举

    枚举是 JDK5 中引入的特性,由 enum 关键字来定义一个枚举类。 格式: enum 枚举类名 { 枚举项1, 枚举项2, …; 成员变量; 构造方法 成员方法 } 说明:…

    技术杂谈 2023年7月11日
    074
  • 腾讯PHP/GO工程师面试经历

    一面是技术面,用的腾讯会议,开局自我介绍之后就开始做题。题目不算难,都非常考验基础扎不扎实。面试官特别喜欢就一个问题深入去问,直到你卡壳。 第一题是非常经典的,从浏览器敲下地址到页…

    技术杂谈 2023年5月31日
    0101
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球