李宏毅机器学习（五）Transformer

2023年6月5日上午10:49 • 人工智能 • 阅读 91

Sequence-to-sequence（Seq2Seq）

输入是一个句子，输出长度不定；下面的第一个是语音辨识，第二个是机器翻译，第三个是语音翻译。这三个都是独立的任务。
第三个是语音翻译，就是语音输入一个国家的语音，最后输出另一个国家的文字；为什么需要第三个，因为第三个貌似可以根据前两个表示出来，这是因为有些国家的语音是没有文字的，那么这时候就需要语音翻译。

硬train

我们以Hokkien（台语、闽南语）为例训练网络：
注意语音翻译和语音辨识是不一样的！

所以我们就做了一个实验，”硬train一发”，不管任何背景音乐、噪音等等因素

后面两个倒装句其实并没有考虑到，所以第三种完全是有可能做到的！

Text-to-Speech 语音合成

我们通过单词解析出kk音节，并将音节送到decoder中解析生成语音。
现在还不是end-to-end的网络。

Seq2seq for Chatbot

聊天语音机器人。
通过训练数据来教机器人学习回答！

大多数NLP都可以是QA问题

比如阅读理解；比如摘要；比如情感分析！而QA问题又可以转为seq2seq问题。

深度学习与人类语言处理

但是不是所有的模型都转化为seq2seq，就好像所有都用瑞士军刀一样，切菜、砍柴，它需要一个最合适的模型。

Seq2seq for Syntactic Parsing

文法剖析；就是将一句话中某些词链接起来就是动词片语、名词片语等等。名词片语加动词片语就是一个句子等。模型的输出本来就是一个model tree，但是我们可以把它转化为一个seq2seq。

这篇文章就是这样做的，当时都是用seq2seq做的翻译，所以这篇文章题目才叫将语法作为外文语言这一说法！

Seq2Seq for Multi-label Classification

注意multi-label不是multi-class，前者是一个物体可以属于多个class，但是后者呢则是一个物体只能属于一个class；
我们设置一个阈值，如果预测的结果大于某个值，那么它就属于该类别，但是这样肯定效果不会好。
所以我们将该问题定义为一个seq2seq问题，让机器自己决定输出几个class

Seq2Seq for Object Detection

目标检测同样可以硬解！！

Seq2seq用途最广泛的就是Transformer！

Encoder

利用encoder输入一个向量，decoder输出一个向量，而Transformer中使用的是self-attention，右侧是原论文中的结构，不太好理解，我们换一个图；

这里不称一个Block是一个layer，是因为一个Block里面是有好几个layer在做的事情！

但是在Transformer中使用的是含有残差结构的输出！不明白残差结构的，建议看看用在图像处理中的Resnet结构，通过加入这个结构之后拯救了深度学习，使得层数再次堆叠！

除此之外，这里的norm并不是batch normalization（BN层），而是layer Normalization（LN层）！不需要考虑batch的资讯！ BN中是不同feature、不同Example、相同dimension来计算mean、standard deviation LN中是同一feature、同一Example、不同dimension来计算mean、standard deviation

所以再次经过右侧后的输出才是整个block的输出！

我们再次看这个网络！
位置信息需要添加；里面有三个箭头指的是多个单词！ Multi-head Attention指的是self-attention的多头版； Add&Norm值的是残差和Layer Norm；最后再次经过我们上面的说的FC层+norm+残差结构！
结合上图的解释，这里就比较好理解了！

还是可以创造更多的encoder的！只需要调整中间的布局

Decoder

我们通过Encoder之后，将我们的语音转化为vector，并将该vector投入到decoder中产生一段话。
但是怎么产生这一段话呢？
BOS（begin of sentence）
就是在你的lexicon（词典）里面多加一个Token，本来Decoder可能产生的文字里面呢，多加一个特殊的符号，多加一个特殊的文字，这个字就代表了开始，代表了Begin。
对于NLP中的每一个token，都可以把它用一个One-Hot的Vector来表示，所以BOS也是用One-hot来表示。
第一次：
我们的Decoder吐出一个变量，这个变量的大小和vocabulary的大小是一样的，vocabulary是根据你输出的单位而不同的，你要先定义好自己要输出什么。比如我们要输出中文，我们以为它要输出某些常用的3000字的方块字，那么就是3000维度；比如英文中我们可以是字母，但是字母太少了，我们可以用词汇，词汇太多了，我们使用subword，将英语的词根词尾切出来表示。
所以这里的就是我们要输出的经过softmax后的分布，根据哪个分数最高定义我们的输出得到哪个；

第二次：
这里我们将有两个输入，” begin + 机“

第三次：
这里我们将有三个输入： ” begin+机+器“

第四次：
这里我们将有三个输入： ” begin+机+器+学“

所以Decoder的输入是上一次的输出；
所以Decoder还是有错误的可能的，一步错步步错，也就是Error Propogation！但是我们现在先无视这个问题！

我们可以看到Encoder和Decoder之间的差异基本在于中间红色框中；
其二呢是Self-attention –》 Masked self-attention

Self-attention 和 Masked self-attention的差距
只能考虑左边的资讯，不能考虑右边的资讯。

这里的自注意力是先有b 1 b^1 b 1再有b 2 b^2 b 2，是一个一个产生的，self-attention是多产生的；
所以我们并不知道输出的长度是多少，应该是seq2seq。（语音识别，你是不知道啥时候停止）

所以这就像推文接龙了，需要有人冒险来给出”断”来终止继续往下接！！

所以我们只需要在”习”后面添加一个符号，在我们学习到这个字后自己会输出一个”END”符号。

AT中我们假如要输出一个长度100的，那么AT Decoder需要运行100次；但是NAT中只需要运行一次即可。但是也有问题，你怎么知道输出的长度呢？需要自定义一个预测器来预测他的长度。
相比于AT而言优点就是速度要快，可以控制输出长度。
比如在语音合成中，你如果想让视频加速，那么你可以将NAT Decoder中的预测器的输出结果乘以2，那么就会使得Decoder输出更多！使得语音更快。
NAT是一个热门主题，因为NAT的表现还不如AT的好，因为中间有Multi-Modality问题

Encoder和Decoder是如何传递资讯的

可以看到Encoder输入到Decoder中有两个！分别是下面的k和v。

我们以第二个字符作为例子来进行说明。
Decoder总是拿Encoder的最后一层的结果吗？原始论文是这样的，但是我们可以不这样，因为Encoder是有很多层的，Decoder也是很多不同的层，那么你可以任意的链接，采用不同层的Encoder的输出。

Training

以语义识别为准，首先准备数据集，让工具人来打标签；其次我们将做GT标记。把该任务当作分类任务，最小化交叉熵。

①要使得交叉熵的总和最小
②这里我们每次的输入都是Groundtruth（也就是说不用上一次的输出，而是GT）；所以存在着MisMatch！怎么解决后面说！

训练的Tips

复制！没有必要都是产生新的词！
Chat-bot

Summarization
产生摘要。但是需要上百万的文章，需要文章 + 摘要！更需要Copy功能

Guided Attention
当我们输出比较短的词汇的时候，结果就不会好的

上面中的前几句话都是抑扬顿挫的读！最后一个甚至直接读了一个字，而没有读”发”！
所以我们怎么让网络读所有的模型呢？需要用到引导attention！

对于语音识别而言，我们的attention的顺序应该是确定的，不应该是跳跃的获取的，所以我们要提前定义attention的顺序！这是强制性的！而不是根据Attention scores的分数来定义输入！
Monotonic Attention 和 Location-aware attention是两个相关的论文

红色的线：贪婪算法，我们一直选择最好的
绿色的线：短期内是不好的，但是长时间下去是好的！
相当于读博士，短时间内是难的，但是在长期来说的是好的！
但是我们怎么会预知后面的结果呢？这就需要我们先去预测，使用Beam Search！
Beam Search有时候有用，有时候没用！

但是Decoder是需要有随机性的！如果是语音识别这种一对一的结果，那么使用Beam Search是最好的！但是面对那种需要机器发挥点创造力的情况，我们是需要噪音的！
比如语音合成！

左边：训练的时候使用Cross Entropy
右边：测试的时候使用的BLEU score，计算两个句子之间的距离
但是我们最后在Validation的时候，并不是选择的loss最小的model，而是使得BLEU分数最大的model；
所以问题是，我们可以不可以直接使用BLEU分数，给它加一个负号，使得它最小就可以了啊。
但是现实是， BLEU分数是不能微分的，你根本没办法算两个句子之间的！而使用Cross Entropy可以计算单个词之间的距离！
口诀：遇到你无法用Optimization解决的问题时，用RL硬Train一发就对了；
你无法optimization无法解决的Loss Function时候，把它当作是RL的Reward，把你的Decoder当作Agent,当作RL问题！

如果我们只是喂正确的词，那么模型是没有处理错误输入的能力的！所以我们需要在训练的时候，给它添加噪音！这种技术叫做”Scheduled Sampling”。但是它会影响模型的平行化的能力

Original: https://blog.csdn.net/qq_35222729/article/details/119383329
Author: 追赶早晨
Title: 李宏毅机器学习（五）Transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568906/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

华为AI计算框架昇思MindSpore零基础快速入门 (上)

一、基础介绍门槛最低的深度学习引导 – 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/463019160 ; MindSpor…

人工智能 2023年6月25日
0080
概率还不会的快看过来《统计学习方法》——第四章、朴素贝叶斯法

作者简介：整个建筑最重要的是地基，地基不稳，地动山摇。而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。博客主页：七归的博客收录专栏：《统计学习方法》第二版——个人笔记南来…

人工智能 2023年6月23日
0098
torch.nn.AvgPool1d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)

对信号的输入通道，提供1维平均池化（average pooling）参数： kernel_size(int or tuple) – 池化窗口大小 stride(int…

人工智能 2023年7月28日
0081
Python实现FFT及IFFT

运行环境及编译工具 Windows VS Code 编程语言及库版本库版本Python3.7.0copy无numpy1.19.2opencv3.4.2PIL8.1.0matplo…

人工智能 2023年6月18日
00126
【情报工具】P图P到真假难辨，推荐8种图像情报分析工具教你一眼识别

在这个万物皆可 PS 的时代，一张图片的真假似乎越来越难判定。例如网上突然传出来一张截图，你要怎么才知道这是真的证据，还是 PS 出来的谣言？如何快速鉴定一张图片有没有被更改过，福…

人工智能 2023年6月22日
00325
opencv面试知识点

文章目录一、opencv基础 * 1、OpenCV中cv::Mat的深拷贝和浅拷贝问题 2、opencv常用数据结构和函数 – 2.1、QImage和Mat之间的转换…

人工智能 2023年7月19日
0097
python文字语音互转

目录 pyttsx SAPI SpeechLib PocketSphinx pyttsx 安装 pyttsx库：pip install pyttsx3 import pyttsx3…

人工智能 2023年5月23日
0082
自监督学习

两种基本的学习范式（1）有监督的学习：利用大量的标注数据来训练模型，计算模型预测结果和真实标签之间的损失，反向传播，通过不断地学习，最终可以获得识别新样本的能力。（2）无监督的学…

人工智能 2023年6月16日
0062
古有愚公移山，今有冤种搬家~某人含泪写完了搬家脚本~~

文章目录 🌳 Long time no see 🍄收！回归主题 🍂 脚本代码的出生和结束 * 🎃老朋友Get_cookie.py 🌿真的要搬家了~ – 🌱搬家工具介绍 …

人工智能 2023年6月30日
00190
FFplay文档解读-23-音频过滤器八

26.70 silencedetect 检测音频流中的静音。此过滤器在检测到输入音量小于或等于噪声容限值的持续时间大于或等于最小检测到的噪声持续时间时记录消息。打印时间和持续时…

人工智能 2023年6月28日
0066
python 索引设置为列_python – python-如何将列设置为DataFrame中的索引

下面是我当前的pandas数据帧：Balance before Salary Salary Month Jun-18 27.20 15300.0 Jul-18 88.20 1530…

人工智能 2023年7月7日
0077
将Anaconda设置为国内镜像源的方法

因为Anaconda默认使用国外镜像源，下载速度相对较慢，为了节省时间提高效率，需要将源设置修改为国内镜像源，配置国内镜像源方法如下。 1.打开anaconda的prompt 如果…

人工智能 2023年7月3日
00104
线性回归及非线性回归

文章目录一元线性回归代价函数（cost Function）相关系数决定系数梯度下降法一元线性回归实战 * – 梯度下降算法（传统不调用库的方法）调用skl…

人工智能 2023年6月18日
0090
RDD、DataFrame和DataSet的区别

原文链接：http://www.jianshu.com/p/c0181667daa0 RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知…

人工智能 2023年6月2日
00110
基于Coppeliasim的仿真流水线协作机器人

一、机器人简介基于Coppeliasim仿真软件，流水线协作机器人实现了将不同颜色物料的分拣投放至目标位置。传送带上分布着不等距的物料，传送带的末端有一个用来计数和检测物料是否到…

人工智能 2023年6月20日
00184
HybridCLR 使用流程记录

clone https://github.com/focus-creative-games/hybridclr_trial.gitUnity 2021.3.12f1c2Hybrid…

人工智能 2023年6月28日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31