Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

2023年5月27日下午7:42 • 人工智能 • 阅读 86

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

苦苦冲浪，找不到答案
Transformer结构（随便冲浪均可查到）
Transformer推理过程
Transformer训练过程

苦苦冲浪，找不到答案

之前学习transformer的时候就不是很理解encoder和decoder在训练和推理过程中是如何工作的，四处查询也没有讲的很详细，很多文章和视频都是encoder讲很多，到了decoder就一带而过了，后来在b站看了大佬讲解的transformer源码，终于明白了encoder和decoder是怎么工作的了，怕自己再忘记，现记录一下。

Transformer结构（随便冲浪均可查到）

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

Input Embedding和Positional Encoding之类大家都在讲的部分就不多做介绍了，这里着重讲一下transformer在机器翻译的推理和训练时是如何工作的。

; Transformer推理过程

以”我爱你”到”I love you”为例，对于transformer来讲，在翻译”我爱你”这句话时，先将其进行embedding和encoding送入encoder（包含n层encoder layers），encoder layer之间完全是串联关系，最终在第n层encoder layer得到k，v。

对于decoder来讲，t0时刻先输入起始符（S），通过n层decoder layer（均计算masked自注意力与交互注意力（由decoder得到的q与encoder输出的k，v计算）），最终在第n层decoder layer得到当前的预测结果projection（可以理解成”I love you”中的”I”）；在t1时刻，将t0时刻得到的输出”I”输入至decoder，重复t0的过程（计算masked自注意力与交互注意力），最终在第n层decoder layer得到输出”love”。最后经过多次计算，得到完整输出结果”I love you E”（E为终止符，由”you”输入decoder得到）

Transformer训练过程

仍以”我爱你”到”I love you”为例，在训练过程中，encoder输入的是待翻译句子”我爱你”，得到k，v；decoder输入的是”S I love you”（S位起始符）；最终计算loss的label是”I love you E”。

这里就有一个很多人都不仔细讲的事情了，那就是decoder中计算自注意力的mask究竟是怎么工作的，都说mask是为了在输入当前字时，模型看不到后面的字（比如输入”I”时，看不到”love you”），但很少讲在训练中究竟是怎么实现的。所谓的mask其实就是一个上斜为1的矩阵，如下图所示

对于mask，0为可以看到的字，1为看不到的字。在此具体问题中，当计算自注意力的字是S时，就看不到后面的”I”，”love”，”you”；计算z自注意力的字时”I”时，就看不到后面的”love”，”you”，以此类推。

那么这个mask究竟是怎么用的呢？这就又涉及到一个transformer的基础知识：由q、k、v计算注意力attention，计算公式很经典了，如下所示

softmax公式

对于decoder中的交互注意力来讲，q，k，v均来自decoder输入的一整段话。我们可以看到，在由q，k相乘结果再与v相乘前，先对qkT进行了softmax计算，那么在进行softmax前，mask就发挥作用了，decoder会根据mask将对应位置的值设置为无穷小，这样在计算softmax时，会使其失去作用（趋近于0），进而在与v相乘时，也就忽略了v中对应的”love”和”you”的部分。

以”S I love you”为例，如果我们想对”I”求交互注意力，那么我们应该让此时的注意力机制看不到后面的”love”和”you”，此时对应了上文中mask矩阵的第二行，即让”love”和”you”在qkt中对应的值置为无穷小，这样在做softmax的时候，就可以忽略”love”和”you”的作用，也就是在一定程度上实现了”看不到”后面的”love”和”you”的作用

以上就是decoder在训练过程中，mask所起到的作用，最后decoder得到预测输出，与label的”I love you E”计算loss，使得其输出逼近label，最终得到训练好的模型。

Original: https://blog.csdn.net/qq_42599237/article/details/123383691
Author: Taskey
Title: Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527441/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】Python寻找多维数组（numpy.array）中最大值的位置（行和列）

最近需要从热力图中找出关键点的坐标，也就是极大值的行和列。搜寻了网上的一些方法，在这里总结一下。使用numpy进行多维数组中最大值的行和列搜寻非常的灵活，有以下几种方法可供参考。 …

人工智能 2023年7月25日
0093
使用 Python 进行朴素贝叶斯分类

定义在机器学习中，贝叶斯分类器是一种简单的概率分类器，它基于应用贝叶斯定理。朴素贝叶斯分类器使用的特征模型做出了很强的独立性假设。这意味着一个类的特定特征的存在与其他所有特征的存…

人工智能 2023年6月30日
0058
【PyTorch教程】05-如何使用PyTorch训练神经网络模型 (2022年最新)

本期目录使用PyTorch训练神经网络：torch.autograd 1. 神经网络背景 2. 加载预训练模型(有重大更新) * 2.1 新老版本写法对比 2.2 新写法的好处 …

人工智能 2023年7月21日
0050
MySQL update正在执行中突然断电，数据是否更改成功？

今天有个朋友突然问到我这个问题，当我们的update语句执行过程中，服务器突然断电了会发生什么？其实这个问题主要在于对mysql update生命周期的理解，以及了解mysql 的…

人工智能 2023年6月27日
0088
Matplotlib详细教程

目录一、初识Matploblib 1.1 Figure 1.2 Axes 1.3 Axes vs pyplot 1.4 设置画布大小 1.5 设置网格线 1.6 设置坐标轴 1….

人工智能 2023年7月5日
00116
使用tkinter开发图形界面显示图片（Win10，Python）

Tkinter（也叫Tk接⼝）是Tk图形⽤户界⾯⼯具包标准的Python接⼝。Tk是⼀个轻量级的跨平台图形⽤户界⾯（GUI）开发⼯具。 Tkinter是 Python自带的官方标准…

人工智能 2023年7月6日
0063
人脸验证(图片/视频) tensorflow、pytorch框架、dlib库(face_recognition)和opencv库————附带详细步骤和代码，可实际运行

文章目录 0 背景与结果 1 准备知识 2 tensorflow进行人脸识别（AlexNet、视频/图像） 3 pytorch进行人脸识别（fasterrcnn，图片） 4 dli…

人工智能 2023年5月23日
0073
在IDEA中连接数据库连接池(SQL server)

配置数据库连接池时遇到的问题首先是DBCP文件的配置问题 dbcpconfig.properties文件在这个中每种驱动类都不一样，注意区分其他根据区分，自行填写或者默认即可 …

人工智能 2023年6月4日
00122
论文浅尝-Event Extraction by Answering (Almost) Natural Questions

扫码关注”自然语言处理与算法”公众号，定期更新NLP知识，还可以撩博主哦~该文来自EMNLP2020。论文简介：事件抽取一般需要检测事件触发器(event …

人工智能 2023年6月1日
0059
算法在实际应用中需要考虑一些其他因素，例如算法的解释性和可解释性，以及对于长尾物品的推荐效果等。这些因素对于设计和优化推荐系统算法都具有重要的意义

问题介绍在实际应用中，算法在设计和优化推荐系统时需要考虑一些其他因素。本文将重点讨论算法的解释性和可解释性，以及对于长尾物品的推荐效果对推荐系统算法的重要意义。将为每个因素提供详…

人工智能 2024年1月5日
0046
Keras构建用于分类任务的Transformer（Vision Transformer/VIT）

文章目录一、Vision Transformer (ViT)详细信息二、Vision Transformer结构三、Keras实现 * 3.1 相关包 3.2 数据读取 3….

人工智能 2023年7月1日
0093
海思 YOLOv5 pytorch 转 onnx 转 Caffe 再转 wk 的转化详解

目录：前沿 YOLOv5模型的选取与修改 YOLOv5 pytorch 转 onnx 转 Caffe YOLOv5 Caffe转wk文件总结参考前沿作者在将YOLOv5…

人工智能 2023年6月17日
0085
使用yolov5进行多标签图像识别的步骤

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0067
java计算机毕业设计VUE商场库存管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月27日
0078
谷歌Colab（免费算力平台）——正确打开方式（常用操作指导tips）

简介谷歌的colab自带一块GPU，配合谷歌云盘的存储，是一个很好的个人深度学习模型训练的平台。初次接触colab会有很有碰壁和卡壳的地方，这篇博客会给出一些colab的常用…

人工智能 2023年7月27日
0067
为什么Bert的三个Embedding可以进行相加，数学证明及代码

这是一个知乎上的经典问题，为什么 Bert 的三个 Embedding 可以进行相加？其中，苏剑林老师的解释感觉很有意思： Embedding的数学本质，就是以one hot为输…

人工智能 2023年5月28日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

大家都在看