End-to-end Audio-visual Speech Recognition with Conformers

2023年5月23日下午9:40 • 人工智能 • 阅读 80

简介

提出了可端到端训练的音视语音识别模型，输入waveform和唇部的每一帧，音视各通过一个conformer encoder后concat并FC得到融合特征，最后是transformer decoder。端到端训练比分开训练好；当信噪比较低时，waveform比fbank效果好

论文的任务/贡献

提出了端到端的音视语音识别模型，从waveform和图像接受收入进行训练。

所提方法

网络结构

包含front-end、back-end和fusion modules。
End-to-end Audio-visual Speech Recognition with Conformers

Front-end：视觉使用了将第一卷积层替换为核大小为5×7×7的3D卷积的ResNet18网络，最后使用了GAP；音频使用了基于1D卷积的ResNet18的网络，第一层滤波器尺寸为80(5ms)，第一个block下采样4倍，随后每个block下采样2倍。最后声学特征下采样至每秒25帧以匹配视觉特征。
Back-end：将resnet特征投影到dk维空间，使用相对位置信息(Transformer-XL: Attentive language models beyond a fixed-length context)编码后送入conformer encoder
融合层：串接back-end输出的声学和视觉特征通过MLP投影到d k d_k d k 维空间。MLP是一层线性投影层，输出4 × d k 4×d_k 4 ×d k 维特征，随后是BN、ReLU和最终线性层，输出维度d k d_k d k 。
解码器：有embedding模块和一组MHSA组成。embedding模块中，一串从1到l-1的索引前缀被投影到embedding向量，l是目标长度索引。为embedding添加了绝对位置编码(sin)。随后是两个注意力模块和FFN模块，将来位置上的注意力矩阵被盖上了掩膜，第一个自注意力模块是Q=K=V，第二个是之前自注意力模块的输出作为Q，encoder输出的表征作为K和V。
语言模型：基于transformer的语言模型，epoch=10，把数据集transcription中的一千六百二十万个词用来训练。通过浅层融合合并来自语言模型的加权先验分数，如下所示。y ^ \hat{y}y ^是目标符号的一组预测值。λ是在解码阶段的相对CTC权重，β ββ是语言模型的相对权重。在本文中，λ = 0.1 λ=0.1 λ=0 .1，β = 0.6 β=0.6 β=0 .6

; 损失函数

实施

数据

预处理：使用dlib检测并跟踪了68个脸部landmark，使用相似变换将脸对齐到一个参考帧中。使用96×96的框来裁取嘴部RoI，转灰度图并依照训练集均值和方差进行正则化。waveform也进行了正则化。
数据增强：图像进行88×88范围的随机裁剪，0.5概率的水平翻转，音频添加了噪声、时间掩膜、时域上带阻滤波(band reject filtering)。添加了NOISEX中的低语噪声，信噪比从-5到20dB。通过均匀分布选择噪音水平或使用干净waveform。将最大长度为0.4秒的2组连续音频样本设置为零，并拒绝最大宽度为150 Hz的2组连续频带。在纯音频实验中，将速度设置在0.9到1.1之间来增加速度扰动。

训练

音视编解码器：除encoder的front-end模块外随机初始化，front-end模块使用了LRW预训练模型。back-end模块使用了e= 12,dff= 2048,dk= 256,dv= 256这组超参数，e代表conformer块，仅视觉模型的head=4，纯音频或音视模型为8，每个卷积层的核尺寸为31。transformer解码器使用了6个自注意力块。
Adam：β1= 0.9，β2= 0.98，ϵ= 10−9，batch-size是8。学习率在前25000步线性增加，到达1e-4后与步数成平方根倒数成比例减小。epoch=50

结果

纯视觉：从头训练时，端到端训练比先提取视觉特征然后送入back-end训练提升了12.6%；使用视觉预训练模型又提升了4.7%，将LSTM编解码器替换为conformer编码器transformer解码器提升了3.8%，将RNN语言模型替换为transformer提升了4.5%

纯语音：LRS2使用FBank与waveform的结果相似。当加入噪声后，随着信噪比降低，waveform好于FBank，且差距逐渐增大，在-5dB时达到7.5%的提升。

音视：LRS2无噪音时比纯语音略好，但是随着信噪比降低，音视与纯音频的差距逐渐增大。

Original: https://blog.csdn.net/a404NotFound/article/details/121983423
Author: Tahy
Title: End-to-end Audio-visual Speech Recognition with Conformers

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/498258/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

目标检测：YOLOX 解读

摘要 YOLOX把YOLO 系列的检测头换成了anchor free的方式，并且采取了一些优化策略：样本分配策略：simOTA，decoupled head（解耦头）的思想。 1….

人工智能 2023年7月11日
0056
【Keras+计算机视觉+Tensorflow】DCGAN对抗生成网络在MNIST手写数据集上实战（附源码和数据集超详细）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、生成对抗网络的概念生成对抗网络(GANs，Generative Adversarial Nets),由Ian Goodf…

人工智能 2023年7月31日
0092
『可控』AI作画：我的画布听我的；快速完成科研论文『流调』；教会小白搭类Unix操作系统；联邦学习资源合辑；前沿论文 | ShowMeAI资讯日报

ShowMeAI 日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点…

人工智能 2023年7月29日
0087
软件工程综合实践课程第十一周作业（ SpringBoot整合Mybatis完成CRUD操作并使用接口调试工具对接口进行测试）

文章目录一、要求二、知识总结 * 常用注解作用解释 – @Autowired @Service @Controller @RestController @Reque…

人工智能 2023年6月29日
0073
人脸识别—-face_recognition安装与应用（附代码）

  face_recognition号称是世界上最简单的基于 python的人脸识别库，是在大名鼎鼎的深度学习框架 dlib上做的整合， dli…

人工智能 2023年5月28日
00107
R语言ggplot2可视化分面图（facet_grid）、自定义设置分面图标签栏的背景色（默认背景色为灰色）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
00129
数字图像处理（1）—— 基本概念与彩色图像

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月20日
0072
hdl_localization代码解析

hdl_localization代码解析简介 hdl_localization是基于UKF滤波框架，融合了ndt点云配准结果，在已经构建的点云地图上实习激光重定位的一种方法。在使…

人工智能 2023年6月2日
0083
数据增强综述及albumentations代码使用

数据增强综述及albumentations代码使用基于基本图形处理的数据增强基于深度学习的数据增强其他讨论 albumentations代码使用 * 1.像素级变换 &#82…

人工智能 2023年6月22日
0079
项目实战–用户消费数据分析

文章目录引入包一、数据预处理二、按月对数据分析三、用户个体消费数据分析四、用户消费行为分析五、用户的生命周期引入包本项目所用数据为【密码：pfj6】:CDNOW_m…

人工智能 2023年7月18日
0083
数据挖掘 | 判别分析 +朴素贝叶斯分类算法

本节记录一下由贝叶斯定理延伸出来的几种预测性建模的方法，主要为线性判别分析(一次，二次)，朴素贝叶斯(稍稍提一下贝叶斯网络) 判别分析适用于自变量连续，因变量为分类型的情形；设因…

人工智能 2023年7月1日
0083
无监督对比学习论文Momentum Contrast for Unsupervised Visual Representation Learning阅读

目录 MoCo论文:《Momentum Contrast for Unsupervised Visual Representation Learning》 * 基础概念了解 &#8…

人工智能 2023年7月11日
0080
注意力机制模块

1.SENet SENet为通道注意力机制模块实现方式： 1.首先对输入进来的特征层进行一个全局池化，将【b,c,h,w】 -> 【b,c,1,1】 2.对全局池化后的特…

人工智能 2023年7月27日
0058
语音识别入门课——week4（隐马尔可夫模型HMM）

1.基本概念(一个定义、一个构成、两个基本假设) [En] 1. Basic concepts (one definition, one composition and two b…

人工智能 2023年5月27日
0095
MATLAB初步进行机器学习

文章目录 Matlab 初步进行机器学习 * 实时脚本的介绍导入数据用导出模型进行预测导出代码进行预测决策树预测和可视化交叉验证的测试集和随机数种子计算F1分数和AUC…

人工智能 2023年6月16日
00121
yolo 车辆测距+车辆识别+单目测距（双目测距）

基于yolo目标检测算法实现的车前道路中的车辆和行人检测，并且可以估测出目标与本车之间的距离一、视频展示 yolo车距1 订阅专栏获得源码(提供完整代码,无需看下文) 二、单目测…

人工智能 2023年7月25日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

End-to-end Audio-visual Speech Recognition with Conformers

网络结构

; 损失函数

数据

训练

结果

大家都在看