多模态情感分析论文解读——CTFN模型

2023年6月24日下午11:24 • 人工智能 • 阅读 117

论文：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Network

论文、动机及相关工作介绍

该论文发布在ACL-2021，由浙江省脑机协作智能关键实验室、计算机科学与技术学院等共同发表。该论文主要研究解决模态缺失情况下的多模态情感分析任务。

MSA任务主要的挑战在于模态融合，又因为模态融合过程中可能存在模态缺失的问题，从而导致预测任务效果不好。该论文提出了基于couple learning的双向交互模型——the coupled-translation fusion network (CTFN)。该模型主要在CMU-MOSI和MELD（Sentiment）两个benchmark上进行实验证明。通过与baselines进行对比，显示了该模型优于SOTA模型。

Baseline

现有多模态情感融合架构包含：translation-based、non-translation based model.。

T ranslation-based:GEM-LSTM、bc-LSTM、MELD-base、CHFusion、MMMU-BA.

Non-translation based model:seqseq2sent、MCTN、TransModality.

下图为本论文提出的模型与不同baseline的对比：

模型方法介绍

该论文的模型是一个分层体系结构，主要由3个CTFN结合构成的Coupled-Translation Fusion Network；以及一个Multimodal convolutional fusion block构成。总体架构如下图所示：

（1）Coupled-Translation Fusion Network

该模块的整体架构如下图，它主要由3个CTFN构成，其中CTFN旨在融合双向翻译过程中的信息（进行双向跨模态的关联）。CTNF模型还包含有the cyclic consistency constraint，该约束提高了Translation的性能，并丢掉了Transformer的decoder使其变得更加轻便。主要工作流程包含the primal process和the dual process两个流程。the primal process是模态的正向转换，如：audio->video表示为 Tran A→V (Xa,Xv);_the dual process则是反向转换 _Tran V → A(Xv , Xa)。

注：Xa，Xv，Xt分别表是三种话语级别的模态（下面介绍一个CTFN的转换）

The primal process

将Xa输入a densely connected layer得到一个线性转换Xa R T a × La，将Xa直接传入translation process得到X v’= Tran A → V(X a , Xv),Xv用于分析Xv和Xv’之间的不同。然后Xv’通过Tran V →A得到Xa’=TranV →A(Xv’,Xa)。

The dual process

X v ∈_R _T v × Lv捕获基于输入的 X v ∈_R _T v×dv (注：Tv为video话语的数量，Lv表示_a densely connected layer的输出维度，dv表示单模态特征维度 )，Xa’=TranV→A(Xv’,Xa)∈R _Ta×La和重构表示X v’= Tran A → V(X a , Xv) ∈_R _T v × Lv。

其本质上，TranA→V和TranV→A是由几个_sequential encoder layers _实现的。在本文作者假设编码的中间层包含了跨模态的融合信息，并能有效的平衡两个模态的贡献。因此，中间编码器层输出的TranA→V[L/2]和TranV→A[L/2]代表多模态融合知识，其中L为层数，当L为奇数时，则L=L+1。对于模型奖励t_he primal process的直接奖励 _r p=|| Xa − TranV →A(Xv ‘)| |F和the dual process的相关奖励rd=|| X v − Tran A → V(Xa’)| |F，其表明真实数据和重建输出的翻译之间的相似性。为简单起见，将两个过程的奖励通过线性模块融合rall=αrp+(1-α)rd。其中α被用来平衡_the primal process和the dual process _之间的贡献。其损失函数如下：

其中，lA→V(Xa，Xv)和lV→A(Xv，Xa)分别表示the primal process和the dual process的训练损失，lA↔V表示bi-directional translator unit的损失。lA↔V则为couple learning模型的the cycle-consistency constraint。循环一致性约束指融合前向和后向的循环。这种直接引入循环一致性约束在CTFN中并不能有效的将couple learning模型中的the primal process和the dual process任务联系起来，从而不能很好地解决模态缺失问题。因此作者提通过使用参数α平衡前向和后向循环一致性的贡献来平衡原始循环一致性的约束，从而得到更灵活的循环一致性。

（2）Multimodal convolutional fusion block

该模块的流程图解如下。

基于CFTN每个模态作为（M-1）次源时刻，即意味着每个模态需要超（M-1）个方向转换。{Tran modality_source→modality_m } m ∈{1,M},M为模态的总数。将两个跨模态中间关联 Tran audio→vedio[L/2]和Tran audio→text[L/2]_沿时间域连接到一个表示单元中,其时间序列都相同（Tt=Tv=Ta）,因此连接的大小为 _T a ×(L v+ L t):

随后作者采用1维的temporal convolutional layer去探索局部模型。

其中，Kcontat为卷积核的大小，Ld为跨模态积分维数的长度。

（3）Hierarchical Architecture

基于CTFN和多模态卷积融合网络提出了多模态双向翻译分层体系架构模型，从而实现双模态的融合嵌入。例：如果有M个模态，则有

个双模态嵌入。本论文根据源模态（source/guidance）的贡献，the modality-guidance translations可以表示为：TranT←A→V=[TranA→V[L/2]，TranA→T{L/2]]，TranT←V→A=[TranV→A[L/2]，TranV→T[L/2]],TranV←T→A=[TranT→A[L/2]，TranT→V[L/2]];根据目标模态可以表示为：TranT→A←V=[TranV→A[L/2]，TranT→A{L/2]]，TranT→V←A=[TranA→V[L/2]，TranT→V{L/2]]，TranA→T←V=[TranA→T[L/2]，TranV→T{L/2]]。随后，多模态卷积网络利用和source/target(源模态/目标模态)相关联的the modality-guidance translations间的显示局部交互。

该模型总共有”12+1″个损失结构——3个CTFN，每个含有4个训练损失（(primal & dual translator training loss）；1个分类损失（classifification loss）。为了平衡primal和dual的贡献引入超参数α，3个CTFN公用同一个α。分类损失用于训练对3个CTFN输出进行分类。

实验

该模型只在CMU-MOSI和MELD（Sentiment）数据集上进行了实验证明。在CMU-MOSI数据集上CTFN超过SOTA–TranModality模型4.5，在MELD数据集上CFTN提升了0.78。在三模态融合任务上CTFN比SOTA–TranModality模型提升了0.06，且TranModality需要4 encoders and 4 decoders，而CTFN只需要6个encoder。

对于模态缺失问题，本文提出了与基于翻译的序列模型seqseq2sent分别再三模态、双模态（缺失一个模态）、单模态（缺失两个模态）情况下仅在CMU-MOSI数据集上进行对比实验。结果如下：

除此之外，作者还进行了消融实验来探究模态间的翻译方向、翻译层数、翻译的链接策略。

其中text->audio和text->video效果比audio->text、video->text更好。audio->video和video->audio效果相差不大。翻译层数则在CMU-MOSI上5层最佳，MELD上1层最佳。对于连接策略，基于音频的目标连接[(T→A)⊕(V→A)]的表现明显优于[(A→T)⊕(A→V)]，并且具有很大的边际。类似地，基于视频的目标连接[(T→V)⊕(A→V)]比[(V→A)⊕(V→T))效果更好。

本文还提出了单个模态的输入，其流程如下：

注：个人见解仅供参考。

Original: https://blog.csdn.net/qq_44609058/article/details/124280377
Author: 正在加载中…….
Title: 多模态情感分析论文解读——CTFN模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649952/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOV5+deepsort+rknn(rk3588进行实时目标跟踪)

总算搞出来了一点源码大佬的错误，不知道为什么视频格式必须是1920*1080的大小才可以；rk3588的多线程实现后续测试一下实时效果吧；大家可以期待一下，感谢原作者大佬！源码…

人工智能 2023年7月26日
0078
Matlab绘图（1）——二维绘图

Matlab绘图（1）——二维绘图 Matlab基础系列教程传送门：Matlab基础（0）——命令行常用指令Matlab基础（1）——基础知识Matlab基础（2）——向量与多项式…

人工智能 2023年7月14日
0093
GaussMind知识图谱—— “AI知识中台”助力医药行业构建“企业大脑”

医药企业拥有丰富的各类数据，如药品说明、患者记录、临床实验记录等，沃丰科技GaussMind知识图谱 “AI知识中台”可以打通医药企业内的多源异构数据连接，…

人工智能 2023年6月10日
0081
VS 2019安装及配置opencv

VS 2019下载链接：https://visualstudio.microsoft.com/zh-hans/downloads/ 1、打开下载的软件，点击继续 2、进行安装下…

人工智能 2023年5月26日
0071
《人工智能及其应用》练习题

1.被称为人工智能之父的是___。图灵 2. 在各种人工智能学派中，认为人工智能起源于数理逻辑的是_____。符号主义；逻辑主义；心理学派；计算机学派； 3. 在各种人工智能学…

人工智能 2023年7月27日
0056
论文阅读-20220904

开学第一周论文阅读总结本周阅读了两篇英文文献，第一篇是陈铿的一种基于自适应特征调整的室内场景三维点云多目标检测方法，另一篇是林在超的一种基于特征增强的改进点云补全方法。目录开…

人工智能 2023年7月12日
0088
狗都能看懂的Self-Attention讲解

文章目录 * – 1、什么是attention？ – 2、什么是self-attention？ – 3、self-attention的原理 &#…

人工智能 2023年6月15日
00115
学会这个Python技能，就可以跟excel说再见了

资产登记，可能你想很简单，自己维护一份excel表不就行了吗？但它和设备的采购、维护和管理息息相关。领导可能随时问你”小宋，还剩多少内存条可以用啊?要不要申请维修a…

人工智能 2023年7月5日
0061
多任务学习之MRI重建(Reconstruction)与超分辨率(Super-Resolution)论文阅读

Task Transformer Network for Joint MRI Reconstruction and Super-Resolution 论文地址：Task Trans…

人工智能 2023年5月26日
0087
用 Pandas 处理结构不佳的 Excel 文件

简介用pandas很容易读取Excel文件并将数据转换为DataFrame。然而现实世界中的Excel文件往往构造不佳，在那些数据散落在工作表中的情况下，你可能需要定制读取数据的…

人工智能 2023年7月7日
0087
学生HTML个人网页作业作品——基于HTML+CSS+JavaScript明星迈克杰克逊带表单带报告（5页）

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月27日
0088
多视图聚类的算法总结

多视图聚类算法总结多视图聚类主要利用不同视图间的差异性和互补性的信息来对数据进行聚类；关键问题在于如何有效地利用多个视图的信息，发挥各视图的优势，减少各视图的局限，从而获得准确且…

人工智能 2023年5月31日
0071
【Pytorch神经网络理论篇】 27 图神经网络DGL库：简介+安装+卸载+数据集+PYG库+NetWorkx库

同学你好！本文章于2021年末编写，获得广泛的好评！故在2022年末对本系列进行填充与更新，欢迎大家订阅最新的专栏，获取基于Pytorch1.10版本的理论代码(2023版)实现…

人工智能 2023年7月22日
00635
使用OPTUNA对LightBGM自动调试参数，并进行绘图可视化

1.optuna基本使用 Optuna是一个自动帮助我们调试参数的工具，使用起来十分方便。比sklearn的gridsearchcv好用很多，一是因为optuna相比于sklear…

人工智能 2023年6月6日
00118
pytorch框架实现BI-LSTM模型进行情感分类

总述本文的目标是针对一个句子，给出其情感二分类，正向/负向。代码存放地址： https://github.com/stay-leave/BI-LSTM-sentiment-cla…

人工智能 2023年6月30日
0090
SimpleITK使用——1. 进行Resample/Resize操作

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

多模态情感分析论文解读——CTFN模型

大家都在看