SER 语音情感识别-论文笔记5

SER 语音情感识别-论文笔记5

《MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF GENDER RECOGNITION》
2020年ICASSP

文章目录

前言

提出了一种基于对数梅尔滤波器组能量(LFBE)谱特征的多头注意深度学习语音情感识别网络。多头注意和位置嵌入共同关注来自同一LFBE输入序列的不同表示的信息。位置嵌入通过识别特征在序列中的位置,有助于关注主导情绪特征。除了多头注意和位置嵌入外,还将性别识别作为辅助任务应用于多任务学习。辅助任务有助于学习影响语音情感特征的性别特征,并提高语音情感识别的准确性,而语音情感识别是首要任务。本文在IEMOCAP数据集上进行了所有实验,最终能够实现76.4%的总体准确率和70.1%的平均class准确率。

一、数据集

南加州大学的交互式情绪运动捕捉(UCS-IEMOCAP)语料库是多模态数据集。它包含大约12小时的视听数据,包括语音、视频、面部运动动态捕捉和文本转录。它由五个二元会话组成,演员在其中即兴表演或脚本场景,特别是为了表现情感表达。在本文中,使用即兴的原始音频样本,因为脚本内容与标记的情感有很强的相关性,即兴语料库在许多方面与自然语音相似,并引发IEMOCAP数据集研究中提到的更强烈的情感。除了上述原因,之前发表在语音情感识别上的大部分工作和最新成果都是基于即兴数据集,特别是关于四种情感——中性、快乐、悲伤和愤怒。

从IEMOCAP中提取的四个实验类的组成偏向于中性情绪,这代表了总数据集的49%。剩下的三个情绪类别包括约12%的愤怒、27%的悲伤和12%的快乐。由于四个类别之间存在数据不平衡,本文给出了测试数据的加权平均(WA)或总体精度,以及未加权平均(UA)或平均类别精度。

同时,给出了所有实验的四种混淆矩阵。数据集在80:20进行分段,用于训练和测试,所有结果都经过五次交叉验证才能报告。对于训练数据集和测试数据集,情感类别和性别的表示是均匀分布的。

[En]

At the same time, four kinds of confusion matrices for all experiments are given. The dataset is segmented at 80:20 for training and testing, and all results are reported with five times cross-validation. For training data sets and test data sets, the representation of emotion category and gender is evenly distributed.

二、特征

一种基于 对数梅尔滤波器组能量(LFBE)谱特征

  • 原始音频的预处理
    IEMOCAP数据库包含长度从一秒到20秒不等的语音。音频文件的采样率为16KHz,并以16位有符号PCM格式存储。80%的音频文件小于6秒,因此将6秒设置为音频输入长度。任何超过6秒的音频文件都会被截断为6秒。短于6秒的文件用零填充。
    同时将每个文件分成46ms宽的帧,以23ms的步幅得到260帧。计算每个帧的对数滤波器组能量,滤波器组的数量设置为64。LFBE功能是使用scipy wavfile和python语音功能库生成的。生成的260 X 64矩阵被送入模型,其中260被视为序列长度。

三、模型方法

提出的模型方法如下:

[En]

The proposed model method is as follows:

(1)通过融合位置嵌入和LFBE特征作为输入,基于Transformer编码器的多头注意网络用于SER任务。
(2) 在基于MHA的SER网络上应用多任务学习来预测说话人的性别,作为辅助任务,以提高SER准确性。基于MHA的网络训练用于语音情感识别和性别识别是两个并行任务,这两个任务共享除输出层之外的所有网络层。

SER 语音情感识别-论文笔记5
SER 语音情感识别-论文笔记5

; 1. 多头注意力机制

对于音频序列,相邻帧将具有类似的声学特性。如果出现类似的特征,请注意模型序列可以与其他序列相关联。

[En]

For audio sequences, adjacent frames will have similar acoustic characteristics. If similar features appear, note that the model sequence can be associated with others.

Multi-Head Attention在执行点乘之前,对Q,K,V向量执行线性变换,它将向量划分为n个等维向量,计算n次注意力得分。每次使用的线性变换是不同的,这使得模型学习到输入的不同表示。

2. 位置嵌入

虽然长时间的注意会识别与情绪有关的事件,但长时间的注意不会考虑声音事件本身的顺序。然而,声音事件的序列将为正确识别情绪提供重要线索,因此将事件的位置作为输入非常重要。

[En]

Although long attention identifies emotion-related events, the order of acoustic events itself is not taken into account in long attention. However, the sequence of acoustic events will provide important clues for correctly identifying emotions, so it is important to take the location of the event as input.

3. 多任务学习

多任务学习的好处:

  • 通过学习忽略特定任务的噪声模式实现更好的泛化
    [En]

    achieve better generalization by learning noise patterns that ignore specific tasks*

  • 相关vs无关特征之间的对比
  • 共享与不同任务相关的功能
    [En]

    share features related to different tasks*

两个任务之间共享位置嵌入和多头注意层。情绪和性别分类使用两个独立的、具有Softmax激活的完全连接层。计算两个任务的负对数似然损失,并对其进行平均,以获得总体多任务损失。

四、实验结果

SER 语音情感识别-论文笔记5
本文给出了使用IEMOCAP数据集进行的各种实验的结果,并在中性、愤怒、悲伤和快乐四种情绪类别上与最先进的语音情绪识别深度学习模型进行了比较。
使用评价指标为加权平均值(WA)或总体精度:在整个测试集上计算标准精度,未加权平均值(UA)也称为平均类精度:分别针对每种情绪计算的平均精度。
IEMOCAP数据中存在阶级不平衡。因此,衡量模型性能的最佳指标是未加权精度或平均类精度。在图所示展示了混淆矩阵,它总结了分类的性能。
SER 语音情感识别-论文笔记5
然而,结合位置嵌入和多任务学习的多头注意模型将快乐class的准确率提高了15%。除了最先进的成绩外,整体class准确性有了显著的提高。

; 总结

本文展示了变压器编码器启发的堆叠式多头自我注意网络在语音情感识别中的应用。除了MHA,还采用了多任务学习和性别识别辅助任务来进一步提高SER。研究结果表明,利用自我注意关注语音特征的不同部分可以显著提高情绪识别的准确性。它将整体准确度提高到74.7%,比四个情绪类的最先进准确度高出3.6%。在MHA的基础上应用多任务学习,结果进一步提高76.4%,总体提高了5.3%。

Original: https://blog.csdn.net/ZLYLCG/article/details/123746554
Author: 绿叶今天写代码了吗
Title: SER 语音情感识别-论文笔记5

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498338/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球