【神经网络】MLP 编码器-解码器注意力机制残差连接

2023年7月12日下午8:22 • 人工智能 • 阅读 56

[1] 多层感知机(MLP)

最典型的MLP包括包括三层：输入层、隐层和输出层，MLP神经网络不同层之间是全连接的（全连接的意思就是：上一层的任何一个神经元与下一层的所有神经元都有连接）。

由此可知，神经网络主要有三个基本要素：权重、偏置和激活函数

权重：神经元之间的连接强度由权重表示，权重的大小表示可能性的大小

偏置：偏置的设置是为了正确分类样本，是模型中一个重要的参数，即保证通过输入算出的输出值不能随便激活。

激活函数：起非线性映射的作用，其可将神经元的输出幅度限制在一定范围内，一般限制在（-11）或（01）之间。最常用的激活函数是Sigmoid函数，其可将（-∞，+∞）的数映射到（0~1）的范围内。

; [2] 编码器-解码器(encoder-decoder)

编码器-解码器一般使用在机器翻译任务中，基于注意力机制的编码器-解码器架构如下：

这里只做简单介绍，了解更多可以查看文末的参考文章列表。

编码器的最终隐藏状态可以传给另一个RNN（解码器）。该RNN的每个输出都是输出序列中的一个单词，并作为RNN下一步的输入。然而，这样的架构需要编码器编码整个输入序列为最终隐藏状态。相反，如果使用注意力模型，解码器不仅接受最终隐藏状态作为输入，还接受编码器处理输入序列的每一步的输出作为输入。编码器可以赋予编码器输出不同的权重，在计算解码器输出序列的每次迭代中使用。

解码器循环层的最终输入为注意力加权的编码器输出和循环单元前一步的预测单词索引。下为这一过程的示意图，其中”Context”（上下文）表示编码器输出张量。为了简化图形，示意图中省略了嵌入层。

[3] 编码器-解码器(encoder-decoder)

为了解决由长序列到定长向量转化而造成的信息损失的瓶颈，Attention注意力机制被引入了。Attention机制跟人类翻译文章时候的思路有些类似，即将注意力关注于我们翻译部分对应的上下文。同样的，Attention模型中，当我们翻译当前词语时，我们会寻找源语句中相对应的几个词语，并结合之前的已经翻译的部分作出相应的翻译，如下图所示，当我们翻译”knowledge”时，只需将注意力放在源句中”知识”的部分，当翻译”power”时，只需将注意力集中在”力量”。这样，当我们decoder预测目标翻译的时候就可以看到encoder的所有信息，而不仅局限于原来模型中定长的隐藏向量，并且不会丧失长程的信息。

数学运算可以查看文末的参考文章列表。

; [4] 残差连接(residual connection)

如上图，上面是来自于resnet模型的skip block的示意图。我们可以使用一个非线性变化函数来描述一个网络的输入输出，即输入为X，输出为F(x)，F通常包括了卷积，激活等操作。

这就是residual connection的思想，将输出表述为输入和输入的一个非线性变换的线性叠加，没用新的公式，没有新的理论，只是换了一种新的表达。

残差连接是何的首创吗？当然不是，传统的神经网络中早就有这个概念，文【2】中则明确提出了残差的结构，这是来自于LSTM的控制门的思想。

y = H ( x , W H ) • T ( x , W T ) + X • ( 1 − T ( x , W T ) ) y = H(x,WH)•T(x,WT) + X•(1- T(x,WT))y =H (x ,W H )•T (x ,W T )+X •(1 −T (x ,W T ))

可以看出，当T ( x , W T ) = 0 T(x,WT) = 0 T (x ,W T )=0，y = x y=x y =x，当T ( x , W T ) = 1 T(x,WT) = 1 T (x ,W T )=1，y = H ( x , W H ) y= H(x,WH)y =H (x ,W H )。

总之，为我们所知道的就是下面的式子叫残差连接，residual connection:

y = H ( x , W H ) + X y = H(x,WH) + X y =H (x ,W H )+X

参考文章：

[1] MLP参考：https://zhuanlan.zhihu.com/p/63184325
[2] 编码器-解码器参考：https://zhuanlan.zhihu.com/p/52036405
[3] 注意力机制参考：https://zhuanlan.zhihu.com/p/46313756
[4] skip connect参考：https://zhuanlan.zhihu.com/p/42833949

Original: https://blog.csdn.net/qq_43592352/article/details/122280466
Author: 征途黯然.
Title: 【神经网络】MLP 编码器-解码器注意力机制残差连接

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688339/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微信小程序（分包）

文章目录 * – 分包 – + * 概念 * 作用 * 分包后的项目构成 * 分包的加载规则 * 分包的体积限制 * 配置方法 * 小程序打包原则 * 引用…

人工智能 2023年6月30日
0097
基于pyskl的poseC3D训练自己的数据集

最近在研究视频动作识别，看了不少的相关算法，主要有基于MMDetection框架下的一些列的研究，有直接对视频进行识别，获取人为动作，比如slowfast等等，但是往往也有一定的局…

人工智能 2023年7月30日
0056
论文笔记（TOP-DOWN）

论文笔记：摘要任务（长文本）— LONG DOCUMENT SUMMARIZATION WITH TOP-DOWNAND BOTTOM-UP INFERENCE 介绍 …

人工智能 2023年5月30日
0075
Python安装cv2，tkinter等库

当我们需要安装一些必要的库文件，例如：cv2，tkinter等，会遇到许多问题所有的库文件都可以类比以下方法去下载安装方法：打开命令输入行，输入： pip install c…

人工智能 2023年7月18日
0084
python中图片读取和保存以及plt.imshow()与cv2.imshow()显示图像颜色错误解决方案

最近调试程序的时候，发现要保存的图片颜色与原图片有色差（显示图像变蓝），郁闷良久，终于发现问题，望诸君避坑。 🧸在用plt.imshow和cv2.imshow显示同一幅图时可能会出…

人工智能 2023年6月18日
0063
【多元统计分析】主成分分析——SPSS上机实验【过程+结果分析】

数据请关注公众号：321红绿灯回复：例5-3 即可获取题目来自何晓群《多元统计分析》（第五版）例题5-3 ; 实验内容试利用主成分综合评价全国各地区水泥制造业规模以上企业的经济…

人工智能 2023年6月19日
00100
TensorRT 开始

TensorRT 是 NVIDIA 自家的高性能推理库，其 Getting Started 列出了各资料入口，如下：本文基于当前的 TensorRT 8.2 版本，将一步步介绍从…

人工智能 2023年6月4日
00104
【目标检测】Yolov5训练Crowdhuman数据集

这篇文章的目的，1.解析Crowdhuman数据集；2.准备Crowdhuman相应配置，训练yolov5。其中我的是将273271,1017c000ac1360b7.jpg，全…

人工智能 2023年7月10日
0075
vue知识图谱可视化_Vue 2019开发者图谱

作为 Vue 的初学者，您或许已经听过很多关于它的专业术语了，例如：单页面应用程序、异步组件、服务器端呈现等，您可能还听过和Vue经常一起被提到的工具和库，如Vuex、Webpac…

人工智能 2023年6月1日
0082
2.OpenCvSharp与Picturebox实现图片打开、读取、灰度转换与保存——c#OpenCvSharp学习笔记

2.OpenCvSharp与Picturebox实现图片打开、读取、灰度转换与保存 0.项目概述项目实现了图片的打开，并在picturebox上显示，使用了OpenCvSharp…

人工智能 2023年6月18日
0069
Python-sqlparse解析SQL工具库一文详解（一）

目录前言一、sqlparse简介二、功能代码解析 1.初始方法 1.parse 2.parsestream 3.format 4.split 2.基类-Token 1.fla…

人工智能 2023年7月6日
0088
不同缺失值(missing)填充(imputation)方法回归模型（Regressor）效果对比

不同缺失值(missing)填充(imputation)方法回归模型（Regressor）效果对比缺失值可以使用0，均值、中位数、众数、KNN、回归、插值等多种方法进行填充； s…

人工智能 2023年6月18日
0099
【代码复现】知识表示学习MHGRN预处理操作（一）

Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question Answering 将外部知识融入模型进行…

人工智能 2023年6月1日
0082
什么是残差连接（Residua

什么是残差连接（Residual Connections）在深度学习中，残差连接（Residual Connections）是一种用于解决神经网络训练过程中的梯度消失和模型退化问…

人工智能 2024年1月1日
0057
SVM模型详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、SVM定义与解决目标二、SVM算法原理 1、线性可分（1）无…

人工智能 2023年7月3日
00105
【camera】基于YOLO的车辆多维特征识别系统（车色，车品牌，车标，车型）与PYQT实现（课程设计）

; 基于YOLO的车辆多维特征识别系统（车色，车品牌，车标，车型）与PYQT实现（课程设计）代码下载地址：下载地址DEMO ; get started： PyQt5, 3.3以上…

人工智能 2023年7月20日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【神经网络】MLP 编码器-解码器 注意力机制 残差连接

大家都在看

【神经网络】MLP 编码器-解码器注意力机制残差连接