用于端到端语音识别的文本数据多任务训练

2023年5月27日上午8:38 • 人工智能 • 阅读 66

论文

MULTITASK TRAINING WITH TEXT DATA FOR END-TO-END SPEECH RECOGNITION

摘要

论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法，以 更好地整合语言级别的信息。通过对语音识别任务和下一令牌预测语言建模任务进行多任务训练，我们将解码器规范化为序列到序列的体系结构。在LibriSpeech的100小时子集或完整的960小时数据集上进行训练，所提出的方法导致相对于基线的相对性能提高了11％，可与语言模型浅层融合相提并论，而在解码过程中不需要额外的神经网络。通过对样本输出句和稀有词的误码率的分析表明，该方法可以有效地融合语言水平信息。

引言

基于注意力机制的端到端语音识别系统可以将音频直接映射到文本表示。训练数据由音频以及文本组成，与孤立的音频或者文本相比，这些数据更加昂贵且困难。最近通过纯音频数据进行语音识别已经取得了实质性的提升[1][2],研究利用纯文本数据的最常见方法是训练语言模型（LM），并使用浅层，冷层或深层融合将其集成到识别过程中。这些方法直接利用第二个神经网络模型，因此需要用于LM的额外空间和计算资源，这使得它们更难以在资源受限的环境（例如设备上的ASR系统）中部署。

也可以使用文本语音合成（TTS）将纯文本数据转换为音频文本对。 Li等人，在神经机器翻译中受到反向翻译方法的启发。提出使用从纯文本数据生成的音频-文本对来训练ASR模型[3]。提出了多篇论文，以一种周期一致的方式联合训练ASR和TTS模型。 Wang等。使用损失项来鼓励ASR模型在相同话语的真实和合成表示上生成一致的输出[4]。这些方法面临合成音频可能使ASR模型偏向不真实语音的问题。

作为LM融合和TTS的替代方案，提出了知识提取方法，以将LM中的知识转移到ASR模型[5]。 LM首先使用大量纯文本数据进行训练。为了训练ASR模型，将来自LM的音频文本数据转录本上的输出概率用作软标签。

最近，Sainath等。提出了联合声音和文本解码器（JA TD）[6]，它结合了纯文本数据以在多任务配置中的训练过程中对ASR解码器进行正则化。在[6]中，使用由传统ASR模型转录的文本来训练JATD。在评估过程中，它还会使用两次通过，一次用于音频文本模式，另一次用于纯文本模式。在这项研究中，我们提出了仅文本数据（MUTE）的多任务训练，该训练通过在训练过程中直接使用参考文本以及在推理过程中仅使用单个解码器遍历来扩展JATD。 MUTE使用纯文本数据来规范解码器的训练。从这个角度来看，MUTE还与最近为端到端ASR模型减去内部LM的工作有关。在LibriSpeech（100h）或完整960小时（960h）数据集的100小时子集中的实验结果表明，MUTE可以有效地将纯文本数据整合到E2E模型中，从而提高了仅使用音频-文本对训练的基线的性能，并且改善了或在包含LM浅融合的基线上达到匹配性能。

模型

结论

本文提出了MUTE，一种用于基于注意力的端到端语音识别模型的多任务训练方法，以合并语言级别的信息。纯文本数据用于以多任务方式规范化解码器的训练。使用LibriSpeech 100h或960h作为音频文本数据进行训练，在测试清洁评估组上，MUTE相对基准线的性能高出11％。 MUTE在直接在ASR解码器上进行训练的过程中结合了语言级别的信息，在性能上与浅层融合相当，并且不需要附加的LM。对样本输出句子和稀有词的分析表明，MUTE可以有效地整合语言水平信息。未来的工作包括将MUTE用于设备上的ASR模型，将MUTE与仅音频技术相结合，将MUTE扩展到RNN-Transducers，以及将MUTE应用于审议模型。

参考文献

A. Baevski, S. Schneider, and M. Auli, “vq-wav2vec: Self-supervised learning of discrete speech representations,” in Proc. of International Conference on Learning Representations (ICLR), 2019.
A. Baevski, H. Zhou, A. Mohamed, and M. Auli, “wav2vec2.0: A framework for self-supervised learning of speech representations,” arXiv preprint arXiv:2006.11477, 2020.
B. Li, T. N. Sainath, R. Pang, and Z. Wu, “Semi-supervised training for end-to-end models via weak distillation,” in Proc.of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 2837–2841
G. Wang, A. Rosenberg, Z. Chen, Y . Zhang, B. Ramabhadran,Y . Wu, and P . Moreno, “Improving speech recognition using consistent predictions on synthesized speech,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7029–7033.
H. Futami, H. Inaguma, S. Ueno, M. Mimura, S. Sakai, andT. Kawahara, “Distilling the knowledge of bert for sequence-to-sequence ASR,” arXiv preprint arXiv:2008.03822, 2020.
T. N. Sainath, R. Pang, R. J. Weiss, Y . He, C. C. Chiu, and T. Strohman, “An attention-based joint acoustic and text on device end-to-end model,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2020, pp. 7039–704

Original: https://blog.csdn.net/wudibaba21/article/details/113800378
Author: 尚歌
Title: 用于端到端语音识别的文本数据多任务训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/525199/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jetson TX2 系列（10）TensorRT模型部署

本文主要完成搭建自己的TensorRT模型部署的 搬运工作。目录 1. Ubuntu安装T…

人工智能 2023年5月26日
00111
ubuntu18.04（LINUX）运行YOLOV5+训练VOC数据集/自己的数据集

YOLOV5 中文Github网址： https://github.com/wudashuo/yolov5 YOLOV5相关文件百度网盘连接：链接: https://pan.ba…

人工智能 2023年7月12日
00106
升级Linux服务器你必须要知道的事

服务器安全是每个系统管理员的头等大事。除了拥有第三方安全工具（如防火墙，DDoS保护等）外，使生产服务器上的所有代码保持最新也是极为重要的。当您的应用程序投入生产时，升级它的风险…

人工智能 2023年7月30日
0077
python读取csv内容变为nan_Python pandas read_csv 中NULL当成NaN类型问题

1､使用read_csv读取数据null显示NaNimport pandas as pd from io import StringIO data = u’string…

人工智能 2023年7月8日
0062
python谱聚类，选择聚类个数和聚类图+私货

K-means算法聚类个数k应该如何的选择,目前常用有肘部法则和轮廓系数法等。肘部法则通过寻找损失值下降平稳的拐点来确定k值，而轮廓系统则是通过寻找轮廓系数的最大值来进行计算：…

人工智能 2023年6月2日
0064
Talk预告 | 中国科学技术大学和微软亚洲研究院联合培养博士生冷燚冲：语音识别的快速纠错模型FastCorrect

本期为 TechBeat人工智能社区第 430 期线上Talk。北京时间 8月11 日 (周四)20:00，中国科学技术大学和微软亚洲研究院联合培养博士生—— 冷燚冲的Talk…

人工智能 2023年5月25日
0076
第11章：图像金字塔

第11章：图像金字塔 * – 一、理论基础： – + 1. 向下采样： + 2. 向上采样： – 二、pyrDown函数使用： – …

人工智能 2023年6月17日
0092
sa岗位是什么意思_日语基础：五十音图-さ（sa）行辅音

日语基础知识本次我们学习さ（sa）行辅音。先祭出五十音图さ（sa）行辅音的平假名写法和发音如下。这里有两个注意事项：（1）し（shi）的发音shi不像汉语拼音那样发翘舌音&#…

人工智能 2023年5月27日
0065
Pytorch与深度学习 —— 11. 使用 LSTM 做姓名分类预测之 RNN提高篇

我们现在有这样的一组数据集，它是按照拉丁文字进行拼写的来自不同国家的常见姓氏，如果打开这个数据集，可以发现它大概是这样 InputOutputAbbasEnglishAddamsE…

人工智能 2023年7月2日
0068
扩散模型原理和pytorch代码实现初学资料汇总

1.扩散模型和分数匹配模型的资源和论文的汇总 https://github.com/heejkoo/Awesome-Diffusion-Models 是一个github网站 2. …

人工智能 2023年6月16日
0049
人工智能算法被日益广泛地应用在社会各个场景之中

当前人工智能伦理问题伦理是处理人与人之间关系、人与社会之间关系的道理和秩序规范。人类历史上，重大的科技发展往往带来生产力、生产关系及上层建筑的显著变化，成为划分时代的一项重要标准，…

人工智能 2023年7月18日
0046
cαr怎么发音_法语学习法语入门史上最全法语发音规则（值得收藏）

法语有35个音素(phonème)，其中有15个元音(voyelle),17个辅音(consonne)和3个半元音(semi-voyelle)，也称半辅音(semi-consonn…

人工智能 2023年5月27日
00109
基于jena的下载与推理

搞了很久的知识抽取部分，陆陆续续踩了很多坑，最终终于！把抽取丢给队友，自己跑来弄知识推理了，哈哈哈哈哈哈之前想着把弄好了的结构化数据存neo4j数据库，但是neo4j不支持推理，…

人工智能 2023年6月1日
0086
3.SPSS Modeler数据基本分析笔记

3.1数据基本分析（实验）任务介绍：本小节实训我们要练习 SPSS Modeler当中的数据基本分析部分。Modeler数据基本分析包括5大块内容： 1.数据质量分析 2.描…

人工智能 2023年7月15日
0073
程序猿七夕礼物-如何30分钟给女朋友快速搭建专属语聊房

1 语聊房应用场景说明七夕礼物准备好了吗？程序猿七夕礼物标配，给女友搭建专属语聊房，既浪漫又硬核！语聊房在社交场景中使用比较广泛，社交APP中的语聊房场景的实现，主要由业务系统…

人工智能 2023年6月3日
0091
Python–找出字符串中出现次数最多的字符及其出现的次数

方法一： 1、循环遍历列表或字符串，如果字符在字典中则值加1，如果不在则创建（key,value)2、找到字典中，最大的value值3、根据最大的value值，找对应的key值，打…

人工智能 2023年7月4日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用于端到端语音识别的文本数据多任务训练

论文

摘要

引言

模型

结论

参考文献

大家都在看