Low Resource ASR: The surprising effectiveness of High Resource Transliteration–低资源ASR：高资源音译的惊人效果

2023年5月25日上午8:34 • 人工智能 • 阅读 88

摘要：

从高资源语言到低资源语言的跨语言知识转移是自动语音识别（ASR）的一个重要研究问题。我们提出了一种新的转移学习策略，即利用大量高资源语言的语音进行预训练，但其文本被翻译成目标低资源语言。这种简单的脚本映射明确地鼓励增加两种语言输出空间的共享，即使高资源语言和低资源语言来自不相关的语言家族，也是令人惊讶的有效。我们提出的技术的效用在非常低资源的情况下更为明显，在这种情况下，好的初始化能够获得更大的改进。我们在Transformer-ASR架构和最先进的wav2vec2.0 ASR架构上评估了我们的技术，以英语作为高资源语言，以六种语言作为低资源目标。在获得1小时的目标语音后，与现有的迁移学习方法相比，我们获得了高达8.2%的相对误码率降低。

关键词：低资源ASR，音译，微调，迁移学习

*一、介绍

近年来，端到端（E2E）系统已经成为ASR事实上的建模选择，与传统的级联式ASR系统相比，表现出卓越的性能。然而，E2E系统需要高度资源密集型的训练，需要大量的标记过的语音才能表现良好。这一要求使天平倾向于像英语这样的高资源语言，因为这些语言有大量的标记过的语音库可以公开使用。相反，对于世界上大多数语言来说，只有有限的转录语音可用。通过有效地利用高资源语言中的大量标记语音来提高这种低资源语言的E2E ASR系统的性能，对语音界来说是非常有意义的。

语音识别的迁移学习技术旨在将知识从高资源语言有效地转移到低资源语言，并已被广泛研究。E2E系统中流行的迁移学习模式是在一种（或多种）高资源语言的标记语音上预训练模型，然后在低资源语言的语音上微调全部或部分模型。通常情况下，高资源语言和低资源语言使用非常不同的字形词汇表。在前人的一些工作中，这种输出词汇的差异主要是由于在E2E ASR系统中只使用高资源语言来训练编码器层或同时训练编码器和解码器层来处理。在后一种情况下，输出的softmax层是在高资源的字母表上，在对低资源语言的语音进行微调之前，需要用对应于目标低资源语言的新的字母表来替换。在这些方法中，跨语言的共享是潜在的，而且当不同特定语言的字形不相交时，输出空间是不可控的。

在我们的工作中，我们提出了一种方法，通过将高资源语言的音译结果音译为低资源语言来提高输出语素空间的共享性。以英语为高资源语言，我们使用六种不同的低资源世界语言。在这些语言中，很容易获得一个现成的音译库，可以将任何英语文本转换为这些语言语素，因为音译是一种对大量少数族裔使用者来说很受欢迎的输入打字工具。

[En]

In our work, we propose a method to improve the sharing of output morpheme space by transliterating the transcriptional results of high-resource languages into low-resource languages. With English as the high-resource language, we use six different low-resource world languages. In these languages, a ready-made transliteration library that can convert any English text into these language morphemes is easy to obtain, because transliteration is a popular input typing tool for a large number of minority speakers.

我们使用音译作为第一步，将大型英语语音语料的转录转换为目标语言的文本，然后使用这些英语语音的音译转录对E2E模型进行预训练，紧接着使用有限的目标语言的语音对文本进行微调。这种看似简单的技术有助于模型学习目标语言的良好初始化，并被证明比一系列语言的标准迁移学习技术更有效。强迫英语转录文本采用与目标语言相同的文本，可以在编码器和解码器层之间更好地共享模型参数。即使是现成的、不完美的音译库，通过我们的方法也能够有一定的效果，因为这些音译的数据只在预训练中使用。相比之下，【9】中提出的将低资源语言音译成英语的反向方法则要差的多，因为它最终还是需要将有损失的音译译回到低资源语言，而不是英语。

*二、相关工作

通过利用高资源语言的标记数据来改进低资源ASR，一直是一个活跃的研究领域，从传统的基于HMM的模型到现代神经系统。虽然最近的一些系统尝试使用具有共享电话层的声学模型或独立的音素层或两者的结合进行转移，但我们在这里的重点是更流行的端到端系统（E2E），在最后一层预测字词。使用高资源语言的标记数据对E2E系统进行迁移学习，已经在三种情况下进行了尝试：（1）对每种语言的字母词汇进行单独的softmax层联合训练，（2）对高资源的字母进行预训练，然后对目标低资源语言进行单独的字母softmax微调以及（3）训练一个共享的softmax层，将所有的字形词汇联合起来，通常在语言共享字形时应用。在所有这些方法中，跨语言的共享是潜在的，当特定语言的字母词汇表不相交时，在输出空间中不能明确控制。

我们试图通过将高资源的字母（英语）音译成低资源的字母来弥补这一缺陷。虽然音译已被广泛用于改善机器翻译、信息检索和跨语言应用，但很少有工作专注于改善语音识别性能。最近，[9]提出了从印度语言到英语的反向音译，并显示出比普通多语言模型的改进。在本文中，我们表明我们从英语的音译方向提供了更高的收益，而反向的方向往往比早期不尝试分享字形的迁移学习方法更差。基于音译的方法也与编码转换的ASR有关。与我们的工作同时，[13]也提出了通过在彼此之间音译低资源的字形来预训练多语言模型。然而，当输入高资源的音频时，他们通过初始的低资源ASR模型获得的字词作为预测。最初的低资源ASR模型是用它自己有限的数据训练出来的，很可能会做出高噪音的预测。用模型自身的噪声预测进行预训练可能会引入负反馈。相比之下，我们提出了一种错误率较低的方法，即通过预先存在的音译库来利用高资源语言的高质量转录文本。

最近另一个有前途的方向是通过对未标记的语音进行预训练来学习可转移的潜在语音表示特征[8]。我们对标记数据的音译文本甚至可以用来进一步微调这些预训练的模型，而且我们在最近的自我监督的 wav2vec2.0[14]的预训练模型上展现了明显的收益。

*三、提出的方法

我们提出的方法的整体训练程序如图1所示。训练包括两个阶段：预训练，然后是微调。在预训练期间，我们将高资源语言的文本音译为目标低资源语言，并使用原始音频数据和这个音译文本训练ASR模型。接下来，我们在目标语言数据上对预训练的ASR模型进行微调，由于输出词汇发生了变化，我们会重新初始化输出层。

Low Resource ASR: The surprising effectiveness of High Resource Transliteration--低资源ASR：高资源音译的惊人效果

音译被用来将文本从一种文字或语言转换为另一种文字或语言，通常保留了不同语言的声音。通过在预训练阶段使用音译文本进行监督训练，我们希望能够隐含地学习到目标语言的更好的声音和文本的映射。我们打算使用现有的音译工具来支持目标语言的音译。有两种常见的音译方法；基于规则和机器翻译。基于规则的方法依赖于两种文字之间的字符映射，而机器翻译方法则从平行训练数据中学习。为了证明所提出的方法甚至可以在一个简单的音译系统中工作，从而能很容易扩展到其他几种低资源语言，我们使用了现有的简单的现成系统。对于四种印度语言，我们使用了indic-trans[15]，对于韩语，我们使用了微软的Azure API1，对于阿姆哈拉语，我们通过google-transliterate-api2 pip包使用了Google Transliterate API。事实上，开发一个基于音素的定制音译系统并没有比使用现成的系统产生任何改进，所以我们坚持使用后者。图2显示了将英语文本音译为相应目标语言的例子。

*四、实验

…………

*五、结论

这项工作探索了音译在训练E2E ASR系统中令人惊讶的有效作用。我们提出了一种简单的基于音译的迁移学习技术，很容易适应其他低资源语言，并在两个最先进的ASR系统上展示了我们所提出的方法的效用，尽管使用的是不完善的音译系统，但在性能上比已有的迁移学习方法有了明显的改善。

论文链接

Original: https://blog.csdn.net/weixin_45091943/article/details/126255860
Author: 叫我小柴
Title: Low Resource ASR: The surprising effectiveness of High Resource Transliteration–低资源ASR：高资源音译的惊人效果

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513126/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

主成分分析原理以及SPSS和Python实现

主成分分析(principal component analysis,PCA) 是一种常用的无监督学习方法，它利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关…

人工智能 2023年7月17日
0069
数据结构与算法——Java实现栈、逆波兰计算器（整数加减乘除）

目录一、栈 1.1 基本介绍 1.2 栈的思路分析 1.3 栈的代码实现二、栈实现综合计算器 2.1 思路分析 2.2 代码实现（中缀表达式实现）三、栈的前缀（波兰）、中缀、…

人工智能 2023年7月30日
0053
（时间序列）回归模型融合策略

（时间序列）回归模型融合策略 * – + 1.简单平均 + 2.加权平均 + * 2.1.误差归一化加权 * 2.2相关系数归一化加权 * 3.指数衰减归一化加权 + …

人工智能 2023年6月17日
00172
AI 实战篇｜基于 AI开放平台实现【植物识别】功能，成为行走的百科全书

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月27日
0059
数据项目总结 – 租房数据分析（完整篇）

Datawhale干货作者：皮钱超，厦门大学，Datawhale成员深圳租房数据分析完整篇从2020年11月发表第一篇深圳租房数据分析的文章，到这篇基于深度学习框架Keras…

人工智能 2023年6月16日
0078
LLVM 编译器

为什么需要编译？编译器的作用便是把我们的高级编程语言通过一系列的操作转化成可被计算机执行的机器语言编译器是一种计算机程序，负责把一种编程语言编写的源码转换成另外一种计算机代码，…

人工智能 2023年5月27日
00117
pandas 数据处理-Group by操作

使用 “group by” 方式我们通常会有以下一个或几个步骤： Splitting：根据某一准则对数据分组 Applying ：对每一分组数据运用某个方法…

人工智能 2023年7月6日
0086
pycharm2020专业版中安装opencv（详细图文）

1.打开cmd,输入python -m pip install –upgrade pip 然后按enter在cmd中升级pip，然后重启电脑。（此类步骤均需联网） 2….

人工智能 2023年6月18日
00103
一套完整的汽车服务终端管理系统，源代码分享

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0083
python-数据描述与分析（利用Pandas处理数据）

2.利用Pandas处理数据2.1 汇总计算当我们知道如何加载数据后，接下来就是如何处理数据，虽然之前的赋值计算也是一种计算，但是如果Pandas的作用就停留在此，那我们也许只是看…

人工智能 2023年7月8日
0072
yolov5 训练结果解析

yolov5 训练结果解析本文仅用于记录之前在CSDN中所学有关YOLOv5结果解析所转载知识的记录和总结笔记用。在每次训练之后，都会在runs-train 文件夹下出现一下文…

人工智能 2023年6月13日
0074
（pytorch进阶之路）DDPM扩散概率模型

文章目录概述 * 前置知识 diffusion图示扩散过程逆扩散过程后验的扩散条件概率似然函数算法代码实现概述扩散概率模型《deep unsupervised l…

人工智能 2023年7月28日
0058
AAAI 2022 论文列表

链接及代码之后会更新 Scaled ReLU Matters for Training Vision TransformersPichao Wang, Xue Wang, Hao …

人工智能 2023年5月26日
0099
【大数据可视化分析】股吧帖子情感倾向及用户参与行为

目录 1. 报告摘要 2. 报告正文 * 2.1 2008-2020年股吧总体分析 – （1） 2008-2020年股吧综合参数（折线图）（2） 2008-2020年…

人工智能 2023年7月16日
0094
【论文笔记】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

For tasks at the intersection of vision and language, there lacks such pre-trained generic…

人工智能 2023年5月31日
0077
IJCAI 2022｜边界引导的伪装目标检测模型BGNet

本篇分享IJCAI 2022 论文『Boundary-Guided Camouﬂaged Object Detection』，内大Ð&石大&UAE提出边界引导的伪…

人工智能 2023年7月12日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Low Resource ASR: The surprising effectiveness of High Resource Transliteration–低资源ASR：高资源音译的惊人效果

大家都在看