多模态情感分析论文解读——CTFN模型

论文:CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network

多模态情感分析论文解读——CTFN模型

论文、动机及相关工作介绍

该论文发布在ACL-2021,由浙江省脑机协作智能关键实验室、计算机科学与技术学院等共同发表。该论文主要研究解决模态缺失情况下的多模态情感分析任务。

MSA任务主要的挑战在于模态融合,又因为模态融合过程中可能存在模态缺失的问题,从而导致预测任务效果不好。该论文提出了基于couple learning的双向交互模型——the coupled-translation fusion network (CTFN)。该模型主要在CMU-MOSI和MELD(Sentiment)两个benchmark上进行实验证明。通过与baselines进行对比,显示了该模型优于SOTA模型。

Baseline

现有多模态情感融合架构包含:translation-based、non-translation based model.。

T ranslation-based:GEM-LSTM、bc-LSTM、MELD-base、CHFusion、MMMU-BA.

Non-translation based model:seqseq2sent、MCTN、TransModality.

下图为本论文提出的模型与不同baseline的对比:

多模态情感分析论文解读——CTFN模型

模型方法介绍

该论文的模型是一个分层体系结构,主要由3个CTFN结合构成的Coupled-Translation Fusion Network;以及一个Multimodal convolutional fusion block构成。总体架构如下图所示:

多模态情感分析论文解读——CTFN模型

(1)Coupled-Translation Fusion Network

该模块的整体架构如下图,它主要由3个CTFN构成,其中CTFN旨在融合双向翻译过程中的信息(进行双向跨模态的关联)。CTNF模型还包含有the cyclic consistency constraint,该约束提高了Translation的性能,并丢掉了Transformer的decoder使其变得更加轻便。主要工作流程包含the primal process和the dual process两个流程。the primal process是模态的正向转换,如:audio->video表示为 Tran A→V (Xa,Xv);_the dual process则是反向转换 _Tran V A(Xv , Xa)。

多模态情感分析论文解读——CTFN模型

注:Xa,Xv,Xt分别表是三种话语级别的模态(下面介绍一个CTFN的转换)

The primal process

将Xa输入a densely connected layer得到一个线性转换Xa R T a × La,将Xa直接传入translation process得到X v’= Tran A V(X a , Xv),Xv用于分析Xv和Xv’之间的不同。然后Xv’通过Tran V →A得到Xa’=TranV →A(Xv’,Xa)。

The dual process

X v ∈_R _T v × Lv捕获基于输入的 X v ∈_R _T v×dv (注:Tv为video话语的数量,Lv表示_a densely connected layer的输出维度,dv表示单模态特征维度 ),Xa’=TranV→A(Xv’,Xa)∈R _Ta×La和重构表示X v’= Tran A V(X a , Xv) ∈_R _T v × Lv。

其本质上,TranA→V和TranV→A是由几个_sequential encoder layers _实现的。在本文作者假设编码的中间层包含了跨模态的融合信息,并能有效的平衡两个模态的贡献。因此,中间编码器层输出的TranA→V[L/2]和TranV→A[L/2]代表多模态融合知识,其中L为层数,当L为奇数时,则L=L+1。对于模型奖励t_he primal process的直接奖励 _r p=|| Xa TranV →A(Xv )| |F和the dual process的相关奖励rd=|| X v Tran A V(Xa’)| |F,其表明真实数据和重建输出的翻译之间的相似性。为简单起见,将两个过程的奖励通过线性模块融合rall=αrp+(1-α)rd。其中α被用来平衡_the primal process和the dual process _之间的贡献。其损失函数如下:

多模态情感分析论文解读——CTFN模型

其中,lA→V(Xa,Xv)和lV→A(Xv,Xa)分别表示the primal process和the dual process的训练损失,lA↔V表示bi-directional translator unit的损失。lA↔V则为couple learning模型的the cycle-consistency constraint。循环一致性约束指融合前向和后向的循环。这种直接引入循环一致性约束在CTFN中并不能有效的将couple learning模型中的the primal process和the dual process任务联系起来,从而不能很好地解决模态缺失问题。因此作者提通过使用参数α平衡前向和后向循环一致性的贡献来平衡原始循环一致性的约束,从而得到更灵活的循环一致性。

(2)Multimodal convolutional fusion block

该模块的流程图解如下。

多模态情感分析论文解读——CTFN模型

基于CFTN每个模态作为(M-1)次源时刻,即意味着每个模态需要超(M-1)个方向转换。{Tran modality_source→modality_m } m {1,M},M为模态的总数。将两个跨模态中间关联 Tran audio→vedio[L/2]和Tran audio→text[L/2]_沿时间域连接到一个表示单元中,其时间序列都相同(Tt=Tv=Ta),因此连接的大小为 _T a ×(L v+ L t):

多模态情感分析论文解读——CTFN模型

随后作者采用1维的temporal convolutional layer去探索局部模型。

多模态情感分析论文解读——CTFN模型

其中,Kcontat为卷积核的大小,Ld为跨模态积分维数的长度。

(3)Hierarchical Architecture

基于CTFN和多模态卷积融合网络提出了多模态双向翻译分层体系架构模型,从而实现双模态的融合嵌入。例:如果有M个模态,则有

多模态情感分析论文解读——CTFN模型个双模态嵌入。本论文根据源模态(source/guidance)的贡献,the modality-guidance translations可以表示为:TranT←A→V=[TranA→V[L/2],TranA→T{L/2]],TranT←V→A=[TranV→A[L/2],TranV→T[L/2]],TranV←T→A=[TranT→A[L/2],TranT→V[L/2]];根据目标模态可以表示为:TranT→A←V=[TranV→A[L/2],TranT→A{L/2]],TranT→V←A=[TranA→V[L/2],TranT→V{L/2]],TranA→T←V=[TranA→T[L/2],TranV→T{L/2]]。随后,多模态卷积网络利用和source/target(源模态/目标模态)相关联的the modality-guidance translations间的显示局部交互。

该模型总共有”12+1″个损失结构——3个CTFN,每个含有4个训练损失((primal & dual translator training loss);1个分类损失(classifification loss)。为了平衡primal和dual的贡献引入超参数α,3个CTFN公用同一个α。分类损失用于训练对3个CTFN输出进行分类。

实验

该模型只在CMU-MOSI和MELD(Sentiment)数据集上进行了实验证明。在CMU-MOSI数据集上CTFN超过SOTA–TranModality模型4.5,在MELD数据集上CFTN提升了0.78。在三模态融合任务上CTFN比SOTA–TranModality模型提升了0.06,且TranModality需要4 encoders and 4 decoders,而CTFN只需要6个encoder。

多模态情感分析论文解读——CTFN模型

对于模态缺失问题,本文提出了与基于翻译的序列模型seqseq2sent分别再三模态、双模态(缺失一个模态)、单模态(缺失两个模态)情况下仅在CMU-MOSI数据集上进行对比实验。结果如下:

多模态情感分析论文解读——CTFN模型

除此之外,作者还进行了消融实验来探究模态间的翻译方向、翻译层数、翻译的链接策略。

其中text->audio和text->video效果比audio->text、video->text更好。audio->video和video->audio效果相差不大。翻译层数则在CMU-MOSI上5层最佳,MELD上1层最佳。对于连接策略,基于音频的目标连接[(T→A)⊕(V→A)]的表现明显优于[(A→T)⊕(A→V)],并且具有很大的边际。类似地,基于视频的目标连接[(T→V)⊕(A→V)]比[(V→A)⊕(V→T))效果更好。

多模态情感分析论文解读——CTFN模型

多模态情感分析论文解读——CTFN模型

本文还提出了单个模态的输入,其流程如下:

多模态情感分析论文解读——CTFN模型

注:个人见解仅供参考。

Original: https://blog.csdn.net/qq_44609058/article/details/124280377
Author: 正在加载中…….
Title: 多模态情感分析论文解读——CTFN模型

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/649952/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球