语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

2023年5月25日上午5:33 • 人工智能 • 阅读 67

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Recent Advances in End-to-End Automatic Speech Recognition

本篇综述是微软JINYU LI在2021.11.02更新的文章，主要从产业界的角度对最近几年端到端ASR的发展进行总结，感兴趣的读者可以阅读该文章，具体的文章链接 https://arxiv.org/pdf/2111.01690.pdf

一介绍

相对于传统的混合模型的ASR，端到端E2E的ASR系统具备以下优点：1）混合模型的每个模块优化都是单独优化，不能保证获取全局最优，而E2E的ASR使用一个优化函数来优化整个网络；2）E2E的ASR直接输出character或者words，简化流程；而混合模型的每个模块都需要相应的专业知识；3）相对于混合模型，e2e模型使用一个网络进行识别，整个系统更加紧凑，可以更便捷在设备上部署。虽然端到端的ASR具备以上优点，而且在很多benchmarks超过混合模型，但混合模型在工业界依然占据主要市场。混合模型在工业界发展数十年，在streaming,latency,adaptation capability,accuracy等方面的方案技术有较厚的积累，e2e的asr要想替代混合模型，必须在以上诸多方面超越混合模型。本文为了促进e2e的asr方案落地，从工业界的角度对近年来的e2e的方案进行总结，更好的应对以上的挑战。

二端到端模型（end-to-end models)

现在主流的E2E的ASR模型主要包括 a)CTC (connectionist temporak classification) b) AED(attention-based Encoder-Decoder) c)RNN-T(recurrent neural network Transducer 。其主要网络结构如图一所示

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

其中CTC的结构如图1（a)所示，本文简单举例ctc path如图2

图1(b)为AED模型，其为了实现streaming方式，需要对attention进行处理，本文列举了AED使用的四种attention,如图3所示

RNN-T主要如图1(c)所示。以上结构详细信息请读者阅读该文章。

三 Encoder

端到端的ASR主要部分encoder,该部分主要把输入信息进行高级的特征表示，本文对encoder使用的结构类型进行总结

A) Lstm

B) Transformer

图5展示了transfomer和目前流行的confomer结构。

为了实现streaming ASR，需要在attention使用mask策略，使其只看到部分的context。图6展示了不同的attenion及对应的mask矩阵。

四其它的训练准则

A) teacher-student learning

B) Minimum Word Error Rate Traing

五多语言模型

本部分主要介绍多语言模型以及方案，主要介绍了使用语言ID（LID)的优劣和CMM方案，以及code-switching在句内和句间的挑战。

六自适用

A) speaker adaptation

主要使ASR在对应的个人效果更好，常用的方案使用speaker embeddings对应的语料进行微调，但更多情况下是如何处理每个说话人拥有较少语料。而且本部分也提到如何在用户端进行训练，不需要把用户数据发送到服务端，从而保证用户数据安全。

B）Domain Adaptation

该部分主要介绍Domain Adaptation，其主要介绍使用文本进行LM方案和TTS-based的方案。

C) Customization

七 Advanced Models

A）非自回归模型Non-Autoregressive Models

B) Unified Models

流和非流方案的组合、动态计算等。

[En]

Combination of streaming and non-streaming schemes, dynamic calculation, etc.

C)Two-pass Models

D) Multi-talker Models

E）Multi-channel Models

八多种多样的主题

a) 更多语音的toolkits

b) 系统使用的建模单元：characters,word-piece,words等等

c) limited data，data augmentation, self-supervised等等

d) 模型部署的研究，模型压缩，量化等等

e) asr模型的输入直接使用waveform而不是声学特征等等。

f) 鲁棒性的研究

九总结

本文列举端到端ASR相比混合模型方案的优势以及劣势。为了促进端到端对混合模型在工业界的替代，本文详细描述了端到端ASR的模型、挑战以及各种解决方案。最后作者也可列举端到端ASR未来的挑战。

Original: https://blog.csdn.net/liyongqiang2420/article/details/121148536
Author: 我叫永强
Title: 语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512476/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch深度学习单卡训练和多卡训练

单机单卡训练模式 # 设置GPU参数,是否使用GPU,使用那块GPU if config.use_gpu and torch.cuda.is_available(): device…

人工智能 2023年6月16日
0073
Java爬虫爬取京东商城

一、任务：旨在通过使用java爬虫，提取网络中的各种商品信息，并收集的商品信息建立统一数据模型存储数据，通过数据模型描述商品的基本属性。如spu，sku，商品描述，价格等信息，同…

人工智能 2023年6月20日
0095
react如何阻止父容器滚动

最近在做代码迁移的时候出现一个问题，发现之前自己写好的一个自定义滚动条组件有个bug,那就滚动时父容器也会滚动。看一下代码,代码做了简化 export default ()=&gt…

人工智能 2023年6月29日
0097
NPU架构与算力分析

NPU架构与算力分析参考文献链接https://mp.weixin.qq.com/s/xc_-5SmtWLGQuX3w-ptPfAhttps://mp.weixin.qq.com/…

人工智能 2023年6月24日
00100
Python魔法方法之__iter__

定义 __iter__方法后下面的例子简单实现一个 range(n) from numpy import iterable class MyList: def __init__(…

人工智能 2023年6月17日
0073
yolo项目汇总

YOLOv5https://github.com/ultralytics/yolov5 https://github.com/ultralytics/yolov5 ; YOLOv5…

人工智能 2023年5月28日
0080
深度解析：什么是Diffusion Model？

©PaperWeekly 原创 · 作者 |鬼谷子引言在上一篇中详解介绍了有关流的生成模型理论和方法。目前为止，基于 GAN 生成模型，基于 VAE 的生成模型，以及基于 fl…

人工智能 2023年7月4日
0055
Robust Medical Instrument Segmentation Challenge 2019拜读

Robust Medical Instrument Segmentation Challenge 2019拜读 0. 摘要 1. 介绍 2. 方法 * 2.1 挑战的任务 2.2 …

人工智能 2023年7月14日
0071
Python Pandas中的Series(创建、replace、map、append)

Series Series是dataframe中的基本数据结构，也可以认为是一维的dataframe。所以series中的操作也可以在dataframe中使用。可以传入列表或者是…

人工智能 2023年7月8日
0072
pandas.DataFrame.plot

DataFrame.plot( Make plots of DataFrame using matplotlib / pylab. New in version 0.17.0: E…

人工智能 2023年6月2日
0075
【Python】Python爬虫豆瓣电影数据并进行数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月14日
0065
训练集、验证集、测试集的作用

1. 前言本篇是看完吴恩达老师DL的课，写来当笔记看的，若有错误与疑虑，请指正或提出。 2. 训练集、验证集、测试集的作用训练集（ Training set）的作用：更新模型…

人工智能 2023年7月28日
0080
基于MobileNetV2主干的DeeplabV3+语义分割实现

目录一. 语义分割的含义二. DeepLabV3+ 模型三. 模型整体框架四. 模型检测效果五. 代码实现六. 源码地址一. 语义分割的含义语义分割是计算机视觉中的…

人工智能 2023年6月24日
0090
【模型解析】从V1-V5深入解析YOLO系列模型

从V1-V5 深入解析YOLO系列模型 yolo相对于R_CNN系列论文，创新之处在于不再需要候选区域，直接端到端，利用回归的思想，直接回归出边框和类别，大大加快了速度，同时精度也…

人工智能 2023年7月10日
0071
解决CUDA error: no kernel image is available for execution on the device

1. 电脑配置 GPU 3080 算力8.6CUDA 11.1CUDNN 8.2.0conda 4.9.2python 3.8.5 2. 问题描述首先在pytroch官网根据电脑…

人工智能 2023年6月17日
0091
【机器学习系列】隐马尔科夫模型第三讲：EM算法求解HMM参数

作者：CHEONG公众号：AI机器学习与知识图谱研究方向：自然语言处理与知识图谱阅读本文之前，首先注意以下两点： 1、机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在…

人工智能 2023年6月1日
00130

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

大家都在看