『Transformer』为什么1*1卷积可以替代全连接层？

2023年5月27日下午11:39 • 人工智能 • 阅读 111

为什么1*1卷积可以替代全连接层？

*
– 起源
– 解决
– 参考

起源

事情起源于同学的一个疑惑，他在阅读Transformer论文时，看到作者在前馈神经网络部分写有这么一句话：

Another way of describing this is as two convolutions with kernel size 1.

于是他向我问道”为什么全连接层可以用1*1卷积层代替呢？”

对卷积的理解尚不深刻的我被问住了，所以我立马开始搜索资料以解决这一问题。

下面将此问题相关的内容分析整理出来，以供复习。

; 解决

按照我之前的理解，对于一张5 ∗ 5 55 5 ∗5的原始图像进行1 ∗ 1 11 1 ∗1的卷积操作，就是对原图像的每个元素乘以一个卷积核参数得到5 ∗ 5 5*5 5 ∗5的特征图，那这不就是直接逐元素乘以常数嘛喂！怎么可能代替全连接呢？！

之所以会有这个误会，是因为我们平常所说的1 ∗ 1 11 1 ∗1卷积其实省略了一个重要的东西，实际上应为 1 ∗ 1 ∗ 输入通道数 11输入通道数1 ∗1 ∗输入通道数* 卷积。

更广泛来说，当我们对K个通道的输入进行n ∗ n n*n n ∗n卷积时，我们需要一个shape为[ n , n , k ] [n, n, k][n ,n ,k ]的kernel。

举个例子，对于一张1 ∗ 1 11 1 ∗1的图像，它拥有RGB三个通道，我们想要执行1 ∗ 1 11 1 ∗1的卷积操作，那么我们kernel的shape应为[ 1 , 1 , 3 ] [1, 1, 3][1 ,1 ,3 ]。

假设卷积核k e r n e l = ( k 1 , k 2 , k 3 ) kernel = (k_1, k_2, k_3)k e r n e l =(k 1 ,k 2 ,k 3 )，同一空间位置不同通道的输入从上到下依次是x 1 , x 2 , x 3 x_1, x_2, x_3 x 1 ,x 2 ,x 3 ，那么输出特征图上对应位置应为k 1 x 1 + k 2 x 2 + k 3 x 3 k_1x_1 + k_2x_2 + k_3x_3 k 1 x 1 +k 2 x 2 +k 3 x 3 。

所以说，1 ∗ 1 1*1 1 ∗1卷积操作是在每个像素位置上，不同feature channels的线性叠加，其目的是保留原有图像平面结构的基础上，调整通道数(即depth)，从而完成升维或降维的功能。

理解了这一点之后，就可以明白为什么1 ∗ 1 1*1 1 ∗1卷积操作等价于一个全连接层了。

依旧举例说明，假如现在有一层全连接网络，输入层维度为3，输出层维度为2，具体参数如下：

W = ( 0 1 1 2 3 5 ) ∈ R 2 × 3 W = \begin{pmatrix} 0 & 1 & 1 \ 2 & 3 & 5 \ \end{pmatrix} \in R^{2 \times 3}W =(0 2 1 3 1 5 )∈R 2 ×3

b = ( 8 13 ) ∈ R 2 b = \begin{pmatrix} 8 \ 13 \ \end{pmatrix} \in R^2 b =(8 1 3 )∈R 2

则可知网络f ( x ) = R e L U ( W ⋅ x + b ) f(x) = ReLU(W\cdot x + b)f (x )=R e L U (W ⋅x +b )，其中x ∈ R 3 x \in R^3 x ∈R 3。

此时我们将维度为3的输入展开为[ 1 , 1 , 3 ] [1, 1, 3][1 ,1 ,3 ]，同样地将维度为2的输出展开为[ 1 , 1 , 2 ] [1, 1, 2][1 ,1 ,2 ]，从卷积的角度可以看成是输入是空间维度为1 ∗ 1 11 1 ∗1的3个通道的特征图，输出是空间维度为1 ∗ 1 11 1 ∗1的2个通道的特征图。

对于空间维度1 ∗ 1 11 1 ∗1的3通道输入，我们需要用[ 1 , 1 , 3 ] [1, 1, 3][1 ,1 ,3 ]的kernel，计算得到1 ∗ 1 11 1 ∗1的输出特征图，那么使用两个这样的kernel便得到了两个输出通道，即[ 1 , 1 , 2 ] [1, 1, 2][1 ,1 ,2 ]。

假设每一个kernel的卷积核参数如下所示：

K 1 = ( 0 1 1 ) K 2 = ( 2 3 5 ) K_1 = (0 \ \ 1 \ \ 1 )\ K_2 = (2 \ \ 3 \ \ 5)K 1 =(0 1 1 )K 2 =(2 3 5 )

可以在1 ∗ 1 1*1 1 ∗1卷积操作的基础上添加ReLU函数，那么有如下公式：

f ( x ) = R e L U ( ( K 1 ⋅ x K 2 ⋅ x ) + ( b 1 b 2 ) ) f(x) = ReLU\left(\begin{pmatrix} K_1\cdot x \ K_2\cdot x \ \end{pmatrix} + \begin{pmatrix} b_1 \ b_ 2 \end{pmatrix}\right)f (x )=R e L U ((K 1 ⋅x K 2 ⋅x )+(b 1 b 2 ))，其中x ∈ R 3 x \in R^3 x ∈R 3。

此时1 ∗ 1 11 1 ∗1卷积操作的公式便与全连接层一致，这就是为什么1 ∗ 1 11 1 ∗1卷积操作可以等价于一个全连接层。

最后回到Transformer上去，如何用两个1 ∗ 1 1*1 1 ∗1卷积代替MLP呢？假设d m o d e l = 512 d_{model}=512 d m o d e l =5 1 2，序列长度为n n n，那么可以将每个token看作[ 1 , 1 , 512 ] [1, 1, 512][1 ,1 ,5 1 2 ]，并将其竖起来，使用shape为[ 1 , 1 , 512 ] [1, 1, 512][1 ,1 ,5 1 2 ]的kernel进行卷积，并使用2048 2048 2 0 4 8个这样的kernel，便可得到[ n , 2048 ] [n, 2048][n ,2 0 4 8 ]维度的张量，维度扩大四倍，等价于第一层全连接。

同理再用512 512 5 1 2个shape为[ 1 , 1 , 2048 ] [1, 1, 2048][1 ,1 ,2 0 4 8 ]的kernel便可得到[ n , 512 ] [n, 512][n ,5 1 2 ]的输出，回到原维度，等价于第二层全连接。

参考

解决疑惑的主要参考

How are 1×1 convolutions the same as a fully connected layer?

辅助参考

卷积神经网络中用1*1 卷积有什么作用或者好处呢？

MLP conv layers

Original: https://blog.csdn.net/weixin_41300383/article/details/123925063
Author: Hoshino Ren
Title: 『Transformer』为什么1*1卷积可以替代全连接层？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528164/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数仓建模—数据领域常见概念与职位划分

数据领域常见概念随着大数据时代的普及以及国家战略层面上的数字化转型，越来越多的客户意识到了”数据”的重要性，无论是走在前面的互联网企业、银行，还是传统有一…

人工智能 2023年7月18日
0071
零售药店管理系统 Python+MySQL数据库

零售药店管理系统【Python+数据库】 1 背景介绍结合本学期所学的Python和数据库完成一个零售药店管理系统 2 问题定义零售药店管理系统通过录入零售药品信息、员工信息…

人工智能 2023年7月4日
0071
关于tensorflow 中module ‘tensorflow‘ has no attribute ‘xxx‘问题的根本解决方法。

在用tensorflow复现github上面的代码时，经常会出现tensorflow版本不对的情况，如下图所示。 FLAGS = tf.flags.FLAGS 很多博主的解决方法都…

人工智能 2023年7月5日
0068
[论文阅读笔记67]Chinese NER by Span-Level Self-Attention

1. 基本信息题目论文作者与单位来源年份Chinese NER by Span-Level Self-AttentionXiaoyu Dong，Xin Xin，Ping Guo …

人工智能 2023年5月28日
0071
【机器学习】LayerNorm & BatchNorm的作用以及区别

使用Normalization的目的当我们使用梯度下降法做优化时，随着网络深度的增加，输入数据的特征分布会不断发生变化，为了保证数据特征分布的稳定性，会加入Normalizat…

人工智能 2023年6月15日
0073
如何使用PyTorch进行模型评估和测试

介绍在机器学习中，模型评估和测试是非常重要的环节，它们用于确定我们构建的模型在现实场景中的表现如何。PyTorch是一个流行的深度学习框架，提供了一系列工具和函数来进行模型评估和…

人工智能 2024年1月2日
0041
激光SLAM框架总结

一、激光SLAM简介基于激光雷达的同时定位与地图构建技术（simultaneous localization and mapping， SLAM）以其准确测量障碍点的角度与距离、…

人工智能 2023年6月23日
0082
【OpenCV 例程200篇】231. 特征描述之灰度共生矩阵（GLCM）

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程 300篇】231. 特征描述之灰度共生矩阵（GLCM） 4.2…

人工智能 2023年6月17日
00120
python随机数（random）

import random import string random.randint(a,b) 在python中的random.randint(a,b)用于生成一个指定范围内的整数…

人工智能 2023年7月30日
0060
pytorch实战：详解查准率（Precision）、查全率（Recall）与F1

pytorch实战：详解查准率（Precision）、查全率（Recall）与F1 1、概述本文首先介绍了机器学习分类问题的性能指标查准率（Precision）、查全率（Reca…

人工智能 2023年6月15日
00145
pytorch中Bi-LSTM传递给线性层的输入采用lstm_out[:,-1,:]还是torch.cat([h_n[-1,:,:],h_n[-2,:,:]],dim=-1)

一、困惑点： pytorch中Bi-LSTM传递给线性层的输入采用lstm_out[:,-1,:]还是torch.cat([h_n[-1,:,:],h_n[-2,:,:]],dim…

人工智能 2023年7月14日
0057
Python数据挖掘项目：基于三种肝癌样本数据的PCA分析以及神经网络分类模型的构建

作者CSDN：进击的西西弗斯本文链接：https://blog.csdn.net/qq_42216093/article/details/116994199版权声明：本文为作者原创…

人工智能 2023年7月2日
0070
算术优化算法AOA(学习笔记_10)

1. 算法简介算术优化算法(Arithmetic Optimization Algorithm, AOA)是一种根据算术操作符的分布特性实现全局寻优的元启发式优化算法。乘除运算…

人工智能 2023年6月15日
0064
音频分类-数据集：AudioSet【Google发行的声音版ImageNet】

GitHub：https://github.com/audioset/ontology 谷歌发布的大规模音频数据集，AudioSet 包括 632 个音频事件类的扩展类目和从You…

人工智能 2023年6月30日
0067
cspj2022 T4 上升点列(point)题解（floyd）

样例一： 8 23 13 23 33 61 22 25 55 3 样例一输出： 8 样例二： 4 10010 1015 2520 2030 30 样例二输出： 103 一、题目解析…

人工智能 2023年6月30日
0053
pytorch 1.11.0 安装流程

文章目录前言一、CUDA 安装二、8.2.1 cudnn 三、安装 pytorch 测试前言我的是基于 pycharm + Anaconda 安装pytorch pyto…

人工智能 2023年7月21日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

『Transformer』为什么1*1卷积可以替代全连接层？

为什么1*1卷积可以替代全连接层？

起源

; 解决

参考

大家都在看