TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T

2023年7月13日下午6:52 • 人工智能 • 阅读 61

题目：

TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODEL

WITH TRANSFORMER ENCODERS AND RNN-T LOSS

[ICASSP 2020 arXiv:2002.02562v2]

Motivation

1、基于transformer的模型使用解码器特征来处理编码器特征，这意味着解码必须以标签同步的方式完成，从而对流语音识别应用提出了挑战。

2、随着输入序列的大小，self-attention的计算次数会二次增加。

Method

A RNN/Transformer Transducer architecture

TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T

RNN-T体系结构是一种神经网络体系结构，可以通过RNN-T损失进行端到端训练，将输入序列（如音频特征向量）映射到目标序列。给定一个长度为T，x=(x1，x2，…，xT)的实值向量的输入序列，RNN-T模型试图预测长度为U的标签y=(y1，y2，…，yU)的目标序列。

RNN-T模型在每一个时间步给出了一个标签空间的概率分布,和输出标签空间包括一个额外的空标签。

RNN-T模型对所有可能的对齐都定义了一个条件分布P(z|x)，其中：

是长度为U的(zi，ti)对序列，(zi，ti)表示输出标签zi和编码的ti特征之间的对齐。标签zi也可以是空白标签（空预测）。删除空白标签将得到实际的输出标签序列y，长度为U。可以在所有可能的对齐z上边缘P(z|x)，以获得给定输入序列x的目标标签序列y的概率，

其中Z(y, T)是标签序列长度为T的有效对齐的集合。

B RNN-T Architecture and Loss

对齐的概率P(z|x)可以分解为：

其中，label(z1：(i−1))是z1：(i−1)中的非空白标签序列。RNN-T架构通过音频编码器、标签编码器和联合网络参数化P(z|x)。编码器是两个神经网络，分别编码输入序列和目标输出序列。本文用transformer代替原来的LSTM编码器。

其中每个线性函数是一个不同的单层前馈神经网络，AudioEncoder(x)是时间ti时的音频编码器输出，LabelEncoder(labels(z1：(i−1)))是给定之前的非空白标签序列的标签编码器输出。其中下面式子中前向变量α(t，u)定义为在时间框架t处结束的所有路径和在标记位置u处结束的所有路径的概率之和。然后，使用前向算法来计算最后一个α变量α(T，U)，模型的训练损失是等式中定义的负对数概率的和：

其中，Ti和Ui分别为第i个训练示例的输入序列和输出目标标签序列的长度。

C T-T模型中的transformer

Transformer由多个相同层的堆栈组成。每一层有两个子层，一个多头注意层和一个前馈层。多头注意层首先应用LayerNorm，然后为所有的头投影输入到q，k，v。注意机制对不同注意头分别应用。所有头部的权重平均值被连接并传递到一个密集层。然后在密集层的归一化输入和输出上使用残差连接，形成多头注意子层的最终输出(即LayerNorm(x) + AttentionLayer(LayerNorm(x))，其中x是多头注意子层的输入)。还对密集层的输出施加dropout，以防止过拟合。前馈子层首先在输入上应用LayerNorm，然后应用两个密集层。使用ReLu作为第一个致密层的激活。再次，dropout到两个密集层进行正则化，并应用一个归一化输入和第二层密集层(即LayerNorm(x) + FeedForwardLayer(LayerNorm(x))输出的残差连接，其中x是前馈子层的输入)。

此外，为了建模顺序，本文使用了相对位置编码，可以通过相对位置编码将复杂性从O(t2)降低到O(t)。

为了解决延迟随着时间的推移而增长的问题，将模型限制在一个移动的状态窗口W上，使一步推理复杂度为常数。

实验步骤

数据集：LibriSpeech ASR corpus

LibriSpeech数据集由970小时的音频数据和相应的文本文本（大约1000万个单词标记）和一个额外的800万个单词标记文本数据集组成。配对的音频/转录数据集用于训练T-T模型和基于LSTM的基线。完整的810M单词标记文本数据集用于独立语言模型(LM)训练。

实验结果

可以看到，T-T模型显著优于基于lstm的RNN-T基线。

为了与使用单独训练LM的浅融合系统进行比较，还使用完整的810M的数据集训练了一个基于transformer的LM，该LM与T-T中使用的标签编码器的架构相同。

使用该LM和训练的T-T系统以及训练的双向基于lstm的RNN-T基线进行浅融合。结果显示在”With LM”列的表2中。T-T系统的浅融合结果与高性能现有系统的相应结果具有竞争力。

为了使AudioEncoder的一步推断易于处理(即具有恒定的时间复杂度)，进一步通过再次掩盖注意力分数，将AudioEncoder的注意力限制在先前状态的固定窗口。由于计算资源有限，对不同的Transformer层使用相同的mask，但是对不同的层使用不同的上下文(mask)是值得探索的。前两列中的N表示模型在当前帧的左边或右边使用的状态数。使用更多的音频历史记录会带来更低的WER，但考虑到一个具有合理时间复杂度的可流模型，尝试了每层10帧的左上下文。

类似地，探索了使用有限的右上下文来允许模型看到一些未来的音频帧，希望能够弥合可流化的T-T模型（左=10，右=0）和全关注的T-T模型（左=512，右=512）之间的差距。由于对每个层应用相同的掩码，因此通过使用正确的上下文引入的延迟将聚合在所有层上。例如，在图3中，要从一个具有正确上下文的一帧的3层变压器中生成y7，它实际上需要等待x10到达，这是90ms的延迟。

为了探索建模的右上下文影响，对每层固定的512帧的左上下文进行了比较，并与全注意力T-T模型进行了比较。从表4中可以看到，每层的正确上下文为6帧（约3.2秒的延迟），性能比全注意模型差16%左右。与可流媒体化的T-T模型相比，每层2帧的右上下文（大约1秒的延迟）带来了大约30%的改进。

此外，还评估了在T-T标签编码器中使用的左上下文如何影响性能。在表5中，展示了限制每一层只使用三个以前的三个标签状态产生与每层使用20个状态的模型相似的精度。标签编码器的左上下文非常有限，很适合T-T模型。当使用全注意力T-T音频编码器时，当限制左标签状态时，看到了类似的趋势。最后，表6报告了使用有限的10帧左上下文时的结果，这将一步推断的时间复杂性降低到一个常数，展望未来框架，作为一种弥合左注意和全注意模型之间的差距的方法。

总结

在本文中，提出了Transformer Transducer模型，在RNN-T架构中嵌入基于Transformer的音频和标签编码，导致一个端到端模型，可以使用损失函数进行优化，有效地边缘化所有可能的对齐，非常适合时间同步解码。该模型实现了一种新的最先进的精度，并且通过限制在自我注意中使用的音频和标签上下文，可以很容易地用于流媒体语音识别。Transformer Transducer模型的训练速度比基于LSTM的RNN-T模型明显快，它们允许以一种灵活的方式交换识别精度和延迟。

2022.4.22

Original: https://blog.csdn.net/weixin_48994423/article/details/124350435
Author: 路飞快来找我
Title: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690422/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习入门笔记（8）—— Multilayer Perceptron 多层感知器

所谓多层感知器，其实就是具有一个或多个隐藏层（hidden layer）的全连接前馈神经网络，如图所示，在最重要的求取损失关于权重的偏导数的过程上，跟之前的 Logistic Re…

人工智能 2023年7月13日
0064
OpenCV-标准霍夫变换cv::HoughLines

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处函数原型 void HoughLines( InputArray image,…

人工智能 2023年6月18日
0062
深度学习理论向应用的过渡课程【北京大学_TensorFlow2.0笔记】学习笔记（十一）——RNN介绍及字母预测

循环核：参数时间共享，循环层提取时间信息它具有记忆性，通过共享不同时刻的参数，实现对时间序列的信息提取。 [En] It has memory and realizes the…

人工智能 2023年5月24日
00134
虚拟人是一箩筐人工智能技术的集合是一个个台阶走上来

在科大讯飞研究了十年语音技术的科讯飞AI研究院副院长潘嘉还告诉我们普通话等级考试还有一个特点它的答卷是在录音室里用合适的设备，让考生尽可能标准地读出内容而在语音识别的初始阶段工程师…

人工智能 2023年5月27日
0069
MLP神经网络，GRNN神经网络，SVM神经网络以及深度学习神经网络对比识别人体健康非健康数据

目录一、理论基础二、案例背景 1.问题描述 2.思路流程三、部分MATLAB程序四、仿真结论分析五、参考文献一、理论基础 MLP多层感知器神经网络（Multi-laye…

人工智能 2023年7月1日
0079
Tensorflow_gpu对应的CUDA版本

GPU 版本Python 版本编译器构建工具cuDNNCUDAtensorflow_gpu-2.6.03.6-3.9MSVC 2019Bazel 3.7.28.111.2tenso…

人工智能 2023年5月23日
00139
pytorch—梯度清零zero_grad()的trick

梯度清零zero_grad的trick 1梯度清零——变相增加batchsize 2 梯度清零——–减小运行内存 1梯度…

人工智能 2023年7月13日
00142
vue+relation-graphs快速实现组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，树形、力学等关系图

一个Vue的关系图谱组件，使用非常方便可以展示如组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，可提供多种图谱布局，包括树状布局、中心布局、力学布局自动布局等。 1.引入库 …

人工智能 2023年6月1日
0094
机器学习—降维-特征选择6-4（PCA-Kernel方法）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0053
【机器学习原理】KNN分类算法

上一篇：Logistic回归分类算法文章目录一、KNN分类算法：用多数表决进行分类 * 1. 用”同类相吸”的办法解决分类问题 – 可视化下…

人工智能 2023年7月2日
00104
NumPy学习笔记（二）—— zeros_like()函数（包含zeros函数）

目录一、前言 * 1、zeros()函数 2、一言以蔽之 – 参数 + 1）shape：使用int型或者元组类型的数组 2）dtype：数据类型（可选填，默认为num…

人工智能 2023年7月21日
0059
Python报错ValueError: arrays must all be same length

遇到这样的报错 ValueError: All arrays must be of the same length 问题分析和解决方式，如下： import pandas as p…

人工智能 2023年7月6日
0055
Pandas学习问题整理(持续更新)

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月9日
00101
R语言Tukey检验进行事后检验（post hoc）实战：单因素方差分析告诉我们并不是所有的群体手段的效果是均等的，确切地找出哪些组彼此不同使用Tukey检验

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0085
python实验指导书pandas答案_pandas 第一次作业

pandas真的很强大 import pandas as pd import numpy as np stu_names = [“hg”,”lg…

人工智能 2023年7月8日
00112
Pytorch—-CIFAR10实战(训练集+测试集+验证集)完整版，逐行注释—–学习笔记

文章目录 * – CIFAR10数据集准备、加载 – 搭建神经网络 – 损失函数和优化器 – 训练集 – 测试集 &#8…

人工智能 2023年7月24日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31