SER 语音情感识别-论文笔记3

2023年5月25日下午5:10 • 人工智能 • 阅读 93

SER 语音情感识别-论文笔记3

《SPEECH EMOTION RECOGNITION USING SEMANTIC INFORMATION》
2021年ICASSP
Code available here: https://github.com/glam-imperial/semantic_speech_emotion_recognition

文章目录

SER 语音情感识别-论文笔记3
前言
一、数据集
二、特征
三、模型方法
*
1. 语义抽取器
2. 副语言抽取器
3. 融合策略
四、识别结果
*
1. 实验参数设置
2. 目标函数
3. 消融实验
总结

前言

在本文中，提出了一个新的框架，可以捕获信号中的语义和副语言信息。该框架由一个语义特征提取器和一个副语言特征提取器组成，前者捕获语义信息，后者捕获副语言信息。然后，使用一种新的注意机制，将语义和副语言特征结合到一个统一的表示中。在最终预测之前，统一的特征向量通过LSTM捕捉信号中的时间动态。

; 一、数据集

本文使用了2017年AVEC挑战赛中使用的野外情绪分析（SEW A）数据集。该数据集由32对（即64名参与者）的网络摄像机和麦克风拍摄的”野生”视听记录组成，观看90秒的商业视频，并与伴侣讨论最多3分钟。该数据集提供了三种方式，即音频、视频和文本，用于三个情感维度：唤醒、配价和喜好。数据集分为3个部分：培训（17对）、开发（7对）和测试（8对），并由6名德语注释员（3名女性，3名男性）注释。

二、特征

语言信息的语义和副语言特征。

[En]

The semantic and paralinguistic features of language information.

三、模型方法

该模型可以利用语音信号中的语义（高级）信息和副语言（低级）动态。低层和高层特征集使用一种新的 注意融合策略融合在一起，然后将它们 馈送给一层LSTM模块，以捕获信号中的时间动态，用于最终的帧级预测。

1. 语义抽取器

为了捕获语音信号中的语义信息，本文训练了 Word2V ec和Speech2V ec模型。第一个模型使用文本信息从给定单词中提取语义向量表示，而第二个模型使用语音。 并且将它们的嵌入空间对齐，以获得语义更丰富的语音表示。
为此，通过域 对抗训练学习W的初始代理。对抗性训练是一个两层游戏，生成器通过计算W来欺骗鉴别器正确识别嵌入空间，并使WS和T尽可能相似。

; 2. 副语言抽取器

副语言特征提取网络由 三个1-D CNN层组成，其中一个校正线性单元（ReLU）作为激活函数，最大池操作介于两者之间。卷积和池运算都是在时域上执行的，使用原始波形作为输入。受之前工作的启发，使用较小的内核大小和步长执行卷积，并使用较大的内核大小和步长执行最大池。

3. 融合策略

最后一步是融合语义和副语言语音特征，然后将它们输入LSTM。
有两种用于特征融合的策略：

[En]

There are two strategies for feature fusion:

（i）串联：标准的特征级融合，即特征向量的简单串联。
（ii）分离”注意机制：
该方法对每个特征集执行线性投影，并使它们位于相同的向量空间。得到投影矩阵分别是语义和副语言特征集，并且使用注意力机制进行融合。之后使用三个完全连接（FC）层，使用不同的参数映射到不同的层，选择使用三个FC层，这样网络种的每个情感维度（即唤醒，配价和喜好）的信息流就可以被解开。

为了融合”分离”向量空间的信息，我们应用了一个注意层，以便每个合适的特征集能够相互关注，并产生丰富的融合特征输出，用于最终预测。特别是，我们首先关注a和l；最后，关于v的结果。

; 四、识别结果

1. 实验参数设置

为了训练模型，使用Adam优化方法，固定学习率为10-4。在所有实验中。我们使用了一小批25个样本，序列长度为300，以及一个p=0.5的dropout，用于除重复出现的层外的所有层，以规范网络。由于模型有大量的参数，不规范化网络会使其容易对训练数据进行过度拟合。此外，在训练阶段使用的LSTM网络的训练值为0.5，梯度范数剪裁为5.0。最后，我们将原始波形分割成10秒长的序列，采样率为22 050 Hz。因此，每个序列对应一个22 0500维向量。

2. 目标函数

目标函数以协调相关系数为基础，通过衡量预测与黄金标准之间的相关系数及其均方误差来评价预测与黄金标准之间的一致性程度。

[En]

The objective function is based on the Concordance correlation coefficient, which evaluates the level of consistency between the prediction and the gold standard by scaling the correlation coefficient and its mean square error between the prediction and the gold standard.

3. 消融实验

; 总结

本文提出了一种基于音频和文本信息的语音情感识别训练框架。使用Word2V ec和Speech2V ec模型，并对齐它们的嵌入空间，以便仅使用语音信号进行准确的语义特征提取。同时使用一种新的注意融合策略将语义和副语言特征结合起来，该策略首先将每个情感维度的信息分离出来，然后使用注意将其结合起来。在SEW A数据集上对提议的模型进行评估，并在配价和喜好维度上产生最先进的结果，与提交给AVEC 2017挑战赛的表现最佳的论文进行比较。

Original: https://blog.csdn.net/ZLYLCG/article/details/123734251
Author: 绿叶今天写代码了吗
Title: SER 语音情感识别-论文笔记3

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515182/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

工业级NPU： MIMX8ML8CVNKZAB在智能物联网中应用

一、边缘计算的崛起随着5G、物联网等技术的发展，智能终端和数据越来越多，网络的传输速度越来越快，覆盖面越来越广，对云端的存储和计算能力提出了更高的要求。这必然会推动计算力向智能终端…

人工智能 2023年5月28日
0068
RNN – LSTM－GRU

文章目录前言为什么引入ＲＮＮ？ RNN * 1.RNN网络结构２.RNN的两个主要应用３.RNN的两个主要应用对应的不同的Loss ４.针对Loss进行反向传播 LSTM …

人工智能 2023年6月21日
0074
ROS学习记录（二）阿克曼转向车运动学模型及在gazebo中搭建仿真环境

前言：该篇是ROS学习记录的第二篇，如果还没关注过之前文章的读者，如有需要可以通过下方传送门去看之前的文章： ROS学习记录（一） Plugin插件这两天关注了古月老师的公众号，…

人工智能 2023年7月28日
0093
免费教程·开源 | 从零开始制作ROS无人竞速车RACECAR教程

一、课程前提自动驾驶汽车即将成为交通出行的主流工具之一，它以计算机、现代汽车产业技术为基础，以数字化、智能化为依托实现自动化驾驶，学习自动驾驶需要了解架构、环境感知、行为决策、…

人工智能 2023年6月10日
0075
python之词频统计

文章目录 1、Hamlet英文词频统计 2、python之jieba库 3、《三国演义》中文人物出场统计 1、Hamlet英文词频统计 txt = open(‘hamlet.txt…

人工智能 2023年5月27日
0060
Python图像处理库的默认导入格式、坐标轴方位易错点辨析

Python进行图像处理、计算机视觉时有若干常用库，他们导入后的张量形状、坐标轴位置、相互转换方法各有不同。本文的总结包括PIL、skimage、numpy、opencv、pyto…

人工智能 2023年6月22日
0098
解决‘GNN’中‘over—smoothing’问题（通俗易懂）

一：’over-smoothing’问题的提出：如下图：按照我们以往学习’CNN’等其他层时，我们通常会有这么一个概念，就是加入…

人工智能 2023年7月14日
0065
《scikit-learn机器学习》 – PCA算法原理解释和k-均值算法【单纯理解】

目录 PCA算法 k-均值算法 PCA算法 PCA算法是 Principal Component Analysis的简称[TencentCloudSDKException] cod…

人工智能 2023年6月2日
0054
Hadoop核心之MapReduce框架总结Ⅰ

说明：在每一章节的重点概括，是笔者理解，感觉比较重要的内容，仅供笔者复习时使用。 MapReduce框架总结目录 1. MapReduce概述 * 1.1 MapReduce定义 …

人工智能 2023年6月29日
0083
无废话的机器学习笔记（七）（聚类: kmeans、GMM、谱聚类）

目录 K-means * 算法步骤 GMM 谱聚类 K-means 就如学感知机首先必学PLA算法，学聚类就首先必学K-means算法。它跟KNN一样，都是为了分类，能变的只有参数…

人工智能 2023年5月31日
0088
swin-transformer训练自己的数据集＜自留＞

使用swin-transformer训练自己的数据集前期准备（数据处理） * 标注数据集一、结构目录二、要修改的地方三、开始训练四、训练过程结果前期准备（数据处理）标…

人工智能 2023年7月28日
0061
Pandas 对数值进行分箱操作的4种方法总结对比

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到”箱”或”桶”中。在本文中，我们将讨论使用 p…

人工智能 2023年7月17日
0081
CVPR小目标检测：上下文和注意力机制提升小目标检测（附论文下载）

计算机视觉研究院专栏作者：Edison_G CVPR21文章我们也分享了很多最佳的框架，在现实场景中，目标检测依然是最基础最热门的研究课题，尤其目前针对小目标的检测，更加吸引了更…

人工智能 2023年6月24日
00111
Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月15日
0061
密码学奇妙之旅、02 混合加密系统、AES、RSA标准、Golang代码

CTR 计数器模式计数器模式CTR是分组密码模式中的一种。通过将逐次累加的计数器进行加密来生成密钥流的流密码。每次加密时会生成一个不同的值来作为计数器的初始值。可以事先进行加密…

人工智能 2023年6月4日
0072
改变conda虚拟环境的默认路径

anaconda下指定虚拟环境的创建路径conda环境默认安装在用户目录C:\Users\username.conda\envs下，如果选择默认路径，那么之后创建虚拟环境，也是安装…

人工智能 2023年6月16日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SER 语音情感识别-论文笔记3

文章目录

1. 语义抽取器

; 2. 副语言抽取器

3. 融合策略

1. 实验参数设置

2. 目标函数

3. 消融实验

大家都在看