self-attention和rnn计算复杂度的对比

2023年5月27日下午9:08 • 人工智能 • 阅读 63

Attention is all you need论文中的实验分析部分罗列了self-attention和rnn的复杂度对比，特此记录一下自己对二者复杂度的分析。

注意：n表示序列长度，d表示向量维度。
1、self-attention的复杂度为O ( n 2 ⋅ d ) O(n^{2} \cdot d)O (n 2 ⋅d )，其来源自self-attention计算公式：
A t t e n t i o n ( Q , K , V ) = S o f t m a x ( Q K T d k ) V Attention(Q,K,V)=Softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V A t t e n t i o n (Q ,K ,V )=S o f t m a x (d k Q K T )V
其中，Q 、 K 、 V ∈ R n × d Q、K、V\in \mathbb{R}^{n \times d}Q 、K 、V ∈R n ×d，
Q K T QK^{T}Q K T是两个矩阵的乘法[ n , d ] × [ d , n ] = [ n , n ] [n,d] \times [d,n]=[n,n][n ,d ]×[d ,n ]=[n ,n ]，计算复杂度为n 2 ⋅ d n^{2} \cdot d n 2 ⋅d；
其结果再乘V V V，即[ n , n ] × [ n , d ] = [ n , d ] [n,n] \times [n,d]=[n,d][n ,n ]×[n ,d ]=[n ,d ]，计算复杂度也为n 2 ⋅ d n^{2} \cdot d n 2 ⋅d；

2、RNN的复杂度为O ( n ⋅ d 2 ) O(n \cdot d^{2})O (n ⋅d 2 )，其来源自计算公式：
h t = f ( W x h x t + b x h + W h h h t − 1 + b h h ) h_{t}=f(W_{xh}x_{t}+b_{xh}+W_{hh}h_{t-1}+b_{hh})h t =f (W x h x t +b x h +W h h h t −1 +b h h ) y t = g ( W h y h t + b h t ) y_{t}=g(W_{hy}h_{t}+b_{ht})y t =g (W h y h t +b h t )
W x h ∈ R e m b × d W_{xh}\in \mathbb{R}^{emb \times d}W x h ∈R e m b ×d，W h h ∈ R d × d W_{hh}\in \mathbb{R}^{d \times d}W h h ∈R d ×d，
从W h h h t − 1 W_{hh}h_{t-1}W h h h t −1 来看，虽然W h h W_{hh}W h h 在前边，但是做矩阵乘法的时候是 h t − 1 × W h h T h_{t-1} \times W_{hh}^{T}h t −1 ×W h h T ，即[ 1 , d ] × [ d , d ] = [ 1 , d ] [1,d] \times [d,d]=[1,d][1 ,d ]×[d ,d ]=[1 ,d ]，计算复杂度为d ⋅ d d \cdot d d ⋅d；
以上是一个输入的计算复杂度，n个输入的计算复杂度为n ⋅ d 2 n \cdot d^{2}n ⋅d 2。

Original: https://blog.csdn.net/tailonh/article/details/123889034
Author: 想念@思恋
Title: self-attention和rnn计算复杂度的对比

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527715/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python导出csv中文乱码utf_8_sig没用

python读写文件基本操作在数据过滤操作中，常常需要对源文件（source）中的数据进行读取、分析、判别处理，而后再写入新的文件。在文件的读取上可以是 .xlsx也可以是 .c…

人工智能 2023年7月7日
0068
详细解析图像处理直方图均衡化计算

什么是直方图均衡化看一个图了解一下什么是直方图均衡化：第一个图灰度都集中在左边，整体图像较暗第二个图灰度都集中在右边，整体图像较亮第三个图灰度都集中在中间，整体图像适中，但是雾蒙…

人工智能 2023年6月18日
0079
协同过滤算法中常见的相似度计算方法有哪些

问题：关于协同过滤算法中常见的相似度计算方法有哪些？在协同过滤算法中，相似度计算是一个重要的步骤，用于衡量两个用户或两个物品之间的相似程度。常见的相似度计算方法有以下几种：皮尔…

人工智能 2024年1月4日
0040
【Pytorch】model.train()和model.eval()原理与用法

pytorch可以给我们提供两种方式来切换训练和评估(推断)的模式，分别是： model.train() 和 model.eval()。一般用法是：在训练开始之前写上 model…

人工智能 2023年7月24日
0034
【回顾】“双11”首个元宇宙日中国移动通信联合会元宇宙产业委员会揭牌《元宇宙产业宣言》发布

2021年11月11日，”元宇宙日”，中国移动通信联合会元宇宙产业委员会（CMCA-MCC）揭牌仪式与《元宇宙产业宣言》发布暨中信出版《元宇宙》新书首发活动…

人工智能 2023年6月28日
0057
classification_report指标详解

sklearn的classification_report详解precision、recall 、f1-score这三个基本就不介绍了，主要介绍平均的一些指标micro avg、m…

人工智能 2023年6月30日
0041
使用ResNet101作为预训练模型训练Faster-RCNN-TensorFlow-Python3-master

使用VGG16作为预训练模型训练Faster-RCNN-TensorFlow-Python3-master的详细步骤→Windows10+Faster-RCNN-TensorFlo…

人工智能 2023年7月10日
0062
中断和异常理论详解，Linux操作系统原理与应用

目录一、中断的相关描述 1、中断是什么 2、为什么要引入中断 3、中断向量 4、外设可屏蔽中断 5、异常及非屏蔽中断 6、中断描述符表 1、中断门（Interrupt Gate）…

人工智能 2023年6月29日
0078
深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割

深度学习实战（十）：使用 PyTorch 进行 3D 医学图像分割 1. 项目简介 2. 3D医学图像分割的需求 3. 医学图像和MRI 4. 三维医学图像表示 5. 3D-Une…

人工智能 2023年5月26日
0092
Python基础：对Python列表（list）的详细用法

目录一. 创建列表 1.1 第一种 1.2 第二种二. 查询列表 2.1 获取列表元素索引 2.2 获取列表单个元素 2.3 获取列表多个元素 2.3 判断元素是否存在于列表 …

人工智能 2023年7月5日
0073
如何使用正则表达式提取指定标签的指定属性值

中文名: 正则表达式_经典实例原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,…

人工智能 2023年6月28日
00112
【商业挖掘】关联规则——Apriori算法(最全~)

目录一、关联规则挖掘二、Apriori-关联规则算法三、Apriori算法分解—Python大白话式实现步骤1：外部库调用❀ 步骤2：数据导入❀ 步骤3：数据处理❀ …

人工智能 2023年7月28日
0061
Tensor Flow PB文件量化到TFLITE

一般在Slim上进行完迁移训练之后我们想将它量化到TFLITE需要先将CKPT量化到PB，在将PB量化到TFLITE，这个原因是因为格式的原因，CKPT是使用多个文件存储模型不同的…

人工智能 2023年5月25日
0078
Pandas中常见的数据处理功能(reindexing, drop, selection, sorting, mapping/apply..等)

Pandas有Seriers和DataFrame两大数据结构， Seriers 处理一唯数据，每个数据有一个对应指针index。DataFrame 处理二维数据，每个数据有一个对…

人工智能 2023年7月9日
0048
第十四届蓝桥杯（Web应用开发）模拟赛1期-大学组

数据类型检测请看这篇数据类型检测渐变色背景生成器 html DOCTYPE html> <html lang="en"> <head…

人工智能 2023年6月20日
0073
C++读取并保存Tiff文件（纯C++，不需要配置opencv、boost.GIL等环境）

背景说明最近需要写一个能在LINUX上读取tif图像、修改像素并保存的C文件，之前都是matlab直接调函数，现在突然使用C读取着实有点懵。找了很多网上的程序却都是需要调特定…

人工智能 2023年7月18日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

self-attention和rnn计算复杂度的对比

大家都在看