SER 语音情感识别-论文笔记3

SER 语音情感识别-论文笔记3

《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition

文章目录

前言

在本文中,提出了一个新的框架,可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成,前者捕获语义信息,后者捕获副语言信息。然后,使用一种新的注意机制,将语义和副语言特征结合到一个统一的表示中。在最终预测之前,统一的特征向量通过LSTM捕捉信号中的时间动态。

SER 语音情感识别-论文笔记3

; 一、数据集

本文使用了2017年AVEC挑战赛中使用的野外情绪分析(SEW A)数据集。该数据集由32对(即64名参与者)的网络摄像机和麦克风拍摄的”野生”视听记录组成,观看90秒的商业视频,并与伴侣讨论最多3分钟。该数据集提供了三种方式,即音频、视频和文本,用于三个情感维度:唤醒、配价和喜好。数据集分为3个部分:培训(17对)、开发(7对)和测试(8对),并由6名德语注释员(3名女性,3名男性)注释。

二、特征

语言信息的语义和副语言特征。

[En]

The semantic and paralinguistic features of language information.

三、模型方法

该模型可以利用语音信号中的语义(高级)信息和副语言(低级)动态。低层和高层特征集使用一种新的 注意融合策略融合在一起,然后将它们 馈送给一层LSTM模块,以捕获信号中的时间动态,用于最终的帧级预测。

1. 语义抽取器

为了捕获语音信号中的语义信息,本文训练了 Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示,而第二个模型使用语音。 并且将它们的嵌入空间对齐,以获得语义更丰富的语音表示。
为此,通过域 对抗训练学习W的初始代理。对抗性训练是一个两层游戏,生成器通过计算W来欺骗鉴别器正确识别嵌入空间,并使WS和T尽可能相似。

SER 语音情感识别-论文笔记3

; 2. 副语言抽取器

副语言特征提取网络由 三个1-D CNN层组成,其中一个校正线性单元(ReLU)作为激活函数,最大池操作介于两者之间。卷积和池运算都是在时域上执行的,使用原始波形作为输入。受之前工作的启发,使用较小的内核大小和步长执行卷积,并使用较大的内核大小和步长执行最大池。

SER 语音情感识别-论文笔记3

3. 融合策略

最后一步是融合语义和副语言语音特征,然后将它们输入LSTM。
有两种用于特征融合的策略:

[En]

There are two strategies for feature fusion:

(i)串联:标准的特征级融合,即特征向量的简单串联。
(ii)分离”注意机制:
该方法对每个特征集执行线性投影,并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集,并且使用注意力机制进行融合。之后使用三个完全连接(FC)层,使用不同的参数映射到不同的层,选择使用三个FC层,这样网络种的每个情感维度(即唤醒,配价和喜好)的信息流就可以被解开。

SER 语音情感识别-论文笔记3

为了融合”分离”向量空间的信息,我们应用了一个注意层,以便每个合适的特征集能够相互关注,并产生丰富的融合特征输出,用于最终预测。特别是,我们首先关注a和l;最后,关于v的结果。

SER 语音情感识别-论文笔记3

; 四、识别结果

1. 实验参数设置

为了训练模型,使用Adam优化方法,固定学习率为10-4。在所有实验中。我们使用了一小批25个样本,序列长度为300,以及一个p=0.5的dropout,用于除重复出现的层外的所有层,以规范网络。由于模型有大量的参数,不规范化网络会使其容易对训练数据进行过度拟合。此外,在训练阶段使用的LSTM网络的训练值为0.5,梯度范数剪裁为5.0。最后,我们将原始波形分割成10秒长的序列,采样率为22 050 Hz。因此,每个序列对应一个22 0500维向量。

2. 目标函数

目标函数以协调相关系数为基础,通过衡量预测与黄金标准之间的相关系数及其均方误差来评价预测与黄金标准之间的一致性程度。

[En]

The objective function is based on the Concordance correlation coefficient, which evaluates the level of consistency between the prediction and the gold standard by scaling the correlation coefficient and its mean square error between the prediction and the gold standard.

3. 消融实验

SER 语音情感识别-论文笔记3
SER 语音情感识别-论文笔记3
SER 语音情感识别-论文笔记3

; 总结

本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型,并对齐它们的嵌入空间,以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来,该策略首先将每个情感维度的信息分离出来,然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估,并在配价和喜好维度上产生最先进的结果,与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。

Original: https://blog.csdn.net/ZLYLCG/article/details/123734251
Author: 绿叶今天写代码了吗
Title: SER 语音情感识别-论文笔记3

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/515182/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球