李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

2023年5月28日下午12:04 • 大数据 • 阅读 84

文章目录

*
– 1. Seq2seq
– 2. Encoder
–
+ 2.1 Block
– 2. Decoder
–
+ 2.1 Autoregressive（AT）
+ 2.2 Non-autoregressive（NAT）
+ 2.3 Cross attention
– 4. Training
–
+ 4.1 Copy Mechanism
+ 4.2 Guided Attention
+ 4.3 Beam Search
+ 4.4 Cross entropy & BLEU score
+ 4.5 Scheduled Sampling

1. Seq2seq

对于seq2seq的问题，有时我们并不知道输出的长度是多少，这时候我们需要机器自己决定 输出的长度
比如把语音的英文数据直接输出为对应的中文文字（长度与格式都不一样），我猜这就是呢篇paper叫做Transformer的原因

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在NLP领域很多问题都可以看作成Q&A的问题，这时就转化成立一个 对话的seq2seq的问题，但一般会针对各个问题有针对性的进行相关处理最适合的模型。

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

我们可以对于文字的语法解析问题也强行转化成一个seq2seq的问题

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

我们对于multi-label的问题也可以转化成一个seq2seq的问题

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 2. Encoder

一般seq2seq的问题都由Encoder和Decoder组成，Encoder处理输入序列，结果给Decoder决定输出
Encoder做的事情就是对输入的一组向量，输出一组相同长度的向量，这点很多模型都可以做到（比如RNN或CNN），在Transformer中就使用了Self-attention。

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

2.1 Block

首先，整体的Encoder会分成很多block，最终得到输出，每一个block里面还有很多个layer

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

其中每一个Block的结构又被分为一层注意力层和全连接层，

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在transformer，在attention层后还多了一个类似残差网络（residual）的设计，将输入加到了输出中，之后再做了一次layer Normalization（对于同一个feature不同的dimension计算平均值和标准差，进行normalization），这时得到的是全连接的输入，然后对全连接的输出在进行残差操作

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在 transformer的block中，输入还加了 Positional Encoding（Self-attention中有讲过，位置信息的vector），其中的Attention用的也是 Multi-Head Attention，之后再过一个正向网络， Add & Norm就是残差+标准化
这个复杂的block在BERT中也有用到

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 2. Decoder

Decoder有两种，比较常见的是 Autoregressive（AT），这里用语音辨识作为例子

2.1 Autoregressive（AT）

对于Encoder给出的输入，Decoder要首先给一个 BEGIN的特殊符号（用独热码表示），代表开始
然后Decoder会softmax后输出一个向量，这个向量的长度是输出语言单词或词汇种类的个数，这个向量是一个distribution，然后数值最大的值就是第一个输出，如下图就是”机”字，然后这个”机”字就成了下一个输入。

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

反复进行这个操作，就得到”机器学习”四个输出

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在transformer中Decoder的结构如下

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

Masked Self-attention相比于Self-attention，每一个输入只能考虑 之前输入的咨询，即下图中每个输入左边的输入，而不是考虑全部的输入
因为decoder的步骤中，我们是 一个输出成为下一个输入所以决定了这样特殊的Attention结构。

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

为了让机器自己学习什么时候结束输出，我们还确定了一个结束符号END，有时候会用跟BEGIN一样的符号表示（因为只会出现两次）

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 2.2 Non-autoregressive（NAT）

相比于AT一次一个字产生的形式m，NAT一次产生一整个句子，给多少个START就输出多少个字，这样就得确定输入多少个START标识符的数量

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

有几种确定 输出数量常见的作法：

训练一个Classifier，它的输入是Encoder的输出，输出是应该所求的输出数量
给N个START，假定输出不会超过一个N值，看什么地方输出END，END右边的舍弃

优点：

NAT一次就产生整个句子，比AT的速度快
能够控制输出的长度，比如语音合成时，将Classifer的输出除2，那么讲话速度就会变两倍快，反之亦然

但是NAT的效果一般不如AT，因为会遇到Multi-modality的问题等等，所以现在很多研究在试图提升NAT的效果。

2.3 Cross attention

连接Encoder和Decoder之间的桥梁叫做Cross attention

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

Cross attention的具体结构如下，其中q q q来自Decoder

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

每一次Decoder运作的过程都类似，考虑到了Encoder产生的所有输出

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

也有人尝试用Encoder中间层与Decoder中间层做一些Cross Attention等连接方式

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 4. Training

我们希望每一个输出的distribution和Ground truth的cross entropy越小越好，最后还有一个结束符的cross entropy

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在训练的时候我们会给Decoder 正确答案作为输入，这叫做 Teacher Forcing

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

4.1 Copy Mechanism

有很多时候Decoder并不需要自己产生输出，而是可以从输入的东西里复制一些东西（如聊天机器人）

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

在做摘要的时候也会需要用这样的功能

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 4.2 Guided Attention

在语音辨识和语音合成中会使用，要求机器在做attention时有 固定的模式，比如固定从左到右进行attention

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

4.3 Beam Search

在进行输出时，一般会找分数最高的作为输出叫做Greedy Decoding
但有时候我们会先选择一些较差的，但之后的结果反而比较好
所以我们用Beam Search找一些较好的路径

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

这种方法有时候好用有时候效果很差：）
在语言辨识这种输出结果确定的情况下，Beam Search会较好用
在需要机器发挥一些创造力的情况时，Beam Search比较没有帮助

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

; 4.4 Cross entropy & BLEU score

训练用的是Cross entropy但最后测试的是BLEU score，所以之间存在差距
当不知道怎么优化时，用reinforcement learning（RL）硬做！

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

4.5 Scheduled Sampling

如果在训练的Decoder一直看到的是完全正确的数据，那么在测试的时候如果出现一步错误，就会步步错
所以从直觉性上我们给Decoder加入一些错误的数据

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

这种方法叫做Scheduled Sampling

李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

Original: https://blog.csdn.net/An_dy_code/article/details/121893059
Author: Andy in boots
Title: 李宏毅2021春季机器学习课程笔记7： Seq2seq & Transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531394/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

补充sqlite3的知识

sqlite3.connect(“要连接的数据库”)会默认检测有没有数据库，如果没有的话就会建立一个。点击pycharm右侧的database，可以点击加…

大数据 2023年11月10日
0058
大数据生态安全框架的实现原理与最佳实践（上篇）

前言数字化转型大背景下，数据作为企业重要的战略资产，其安全的重要性不言而喻。我们会通过系列文章，来看下大数据生态中安全框架的实现原理与最佳实践，系列文章一共两篇，包含以下章节：…

大数据 2023年5月26日
00110
postgresql高级应用之合并单元格

postgresql高级应用之合并单元格转载请注明出处https://www.cnblogs.com/funnyzpc/p/14732172.html 1.写在前面✍ 继上一篇p…

大数据 2023年6月3日
0072
Android——一个神奇的通讯录APP

一个神奇的通讯录APP 效果视频 * 联系人总览 – 效果图 SQLite数据库 + 建表 CRUD * 增删改查滚动条联系人分组数据库数据与滚动条绑定添…

大数据 2023年11月11日
0037
Windows 10 将 Docker Desktop for Windows（WSL 2 方式）文件存储移出系统盘放置到其它目录

以WSL2方式使用Docker Desktop for Windows确实带来了更好的体验，但同时也带来新的问题。其中最典型的问题就是系统盘空间的占用越来越大。而且还有典型的内存问…

大数据 2023年5月28日
0084
DataX同步Hive数据丢失，源码修复

大数据 2023年11月15日
0043
redis核心总结

大数据 2023年11月16日
0036
瑞吉外卖(优化篇)

大数据 2023年11月15日
0059
算法面试之transformer的结构和位置编码

1.结构 Encoder和Decoder均由6个相同的层组成，可将上图简化为下图表示：（Encoder的输出与每个Decoder相连）Encoder的每一层又包含两个sub-lay…

大数据 2023年5月28日
0078
自然语言处理与企业对话系统设计

原创：晏茜资料来源：李俊本文分享的主题分为两个部分，第一部分内容是关于企业级对话系统的简介，第二部分探讨对话系统和自然语言处理技术结合的领域。 1. 企业对话系统我们首先来介绍…

大数据 2023年5月28日
0082
docker-compose

1、安装docker 2、下载docker-compose sudo curl -L https://get.daocloud.io/docker/compose/releases…

大数据 2023年6月3日
00113
HDFS角色DataNode

1 工作机制一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 DataNode启动后…

大数据 2023年5月25日
0090
《从0开始学大数据》之如何自己开发一个大数据SQL引擎

背景大数据仓库 Hive，作为一个成功的大数据仓库，它将 SQL 语句转换成 MapReduce 执行过程，并把大数据应用的门槛下降到普通数据分析师和工程师就可以很快上手的地步。…

大数据 2023年11月12日
0063
2021-12-10 sqlite数据库 sqlite表

建设表CREATE TABLE arg_info(no TEXT,name TEXT,energy REAL,protein REAL); 增加INSERT INTO arg_in…

大数据 2023年11月12日
0058
大数据计算框架复习

大数据 2023年11月13日
0053
延时队列

一。应用场景订单成功后，在30分钟内没有支付，自动取消订单外卖平台发送订餐通知，下单成功后60s给用户推送短信。如果订单一直处于某一个未完结状态时，及时处理关单，并退还库存 …

大数据 2023年6月3日
0080

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球