在多模态模型训练时，如何合适地融合单模态损失

2023年7月14日上午4:50 • 人工智能 • 阅读 82

FesianXu 20220420 at Baidu Search Team

前言

文章[1]的作者发现在多模态分类模型中，经常出现最好的单模态模型比多模态模型效果还好的情况，作者认为这是由于多模态模型的容量更大，因此更容易过拟合，并且由于不同模态的信息过拟合和泛化有着不同的节奏，如果用同一个优化策略进行优化，那么很可能得到的不是一个最佳的结果。也就是说作者认为目前的多模态融合方式还不是最合适的，因此在[1]中提出了一种基于多模态梯度混合的优化方式。本文是笔者对该文的读后感， 如有谬误请联系指出，本文遵循CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明并且联系笔者，谢谢。

∇ \nabla ∇ 联系方式：

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号：

假如一个多模态分类模型由M M M个模态信息组成（如RGB，光流，音频，深度信息等等），每一个模态的输入记为x i x_i x i ，每一个模态的特征提取网络记为f i = g i ( x i ) f_i = g_i(x_i)f i =g i (x i )，其中i = 1 , ⋯ , M i=1,\cdots,M i =1 ,⋯,M，那么对于一个后融合（Late-fusion）[2]的多模态分类模型来说，如Fig1.1©所示，其后融合的多模态特征由拼接（concatenate）操作构成，因此多模态特征表示为f m = f 1 ⨁ f 2 ⋯ f M f_{m} = f_1 \bigoplus f_2 \cdots f_M f m =f 1 ⨁f 2 ⋯f M ，其中⨁ \bigoplus ⨁表示拼接操作。最后将会用f m f_m f m 进行训练和分类。假设训练集为T = { X 1 , ⋯ , n , y 1 , ⋯ , n } \mathcal{T}={X_{1,\cdots,n}, y_{1,\cdots,n}}T ={X 1 ,⋯,n ,y 1 ,⋯,n }，其中X i X_i X i 为第i i i个训练样本而y i y_i y i 为第i i i个训练样本的标签，那么对于多模态分类而言，其损失为：
L m u l t i = L ( C ( f 1 ⨁ f 2 ⋯ f M ) , y ) (1-1) \mathcal{L}_{multi} = \mathcal{L}(\mathcal{C}(f_1 \bigoplus f_2 \cdots f_M), y) \tag{1-1}L m u l t i =L (C (f 1 ⨁f 2 ⋯f M ),y )(1 -1 )

容易知道对于单模态分类而言，其损失为：
L u n i = L ( C ( f m ) , y ) (1-2) \mathcal{L}{uni} = \mathcal{L}(\mathcal{C}(f{m}), y) \tag{1-2}L u n i =L (C (f m ),y )(1 -2 )

Fig 1.1 多模态联合训练，采用后融合的方式进行不同模态的信息融合。

从理想情况看，由于多模态特征是由各个模态的特征拼接而成的，通过训练学习出合适的分类器参数Θ C ∗ \Theta_{\mathcal{C}}^{*}ΘC ∗，那么多模态损失(1-1)就可以崩塌到单模态损失(1-2)，也就是说最坏情况下多模态训练得到的结果，都应该要比单模态训练的要好。然而结果并不是如此，如Fig 1.2(a)所示，以在Kinetics上的结果为例，最好的单模态结果总是要显著比多模态结果（Audio，RGB，Optical Flow三者的任意组合）要好。不仅如此，如Fig 1.2(b)所示，即便采用了一些流行的正则手段，也无法得到有效的效果提升。这不是偶然，[1]的作者认为这是由于不同模态的信息陷入过拟合的节奏是不同的，而通过相同的训练策略对多模态特征进行训练，可能对于整体而言并不能达到最优的状态。为此，对于多模态损失而言需要适当地进行加权，去适应不同模态学习的节奏，假设权系数w k w_k w k 满足∑ k w k = 1 \sum_kw_k=1 ∑k w k =1，其中的k k k是第k k k个模态，那么最终的损失为：
L b l e n d = ∑ i = 1 K + 1 w i L i (1-3) \mathcal{L}{blend} = \sum{i=1}^{K+1} w_i \mathcal{L}_i \tag{1-3}L b l e n d =i =1 ∑K +1 w i L i (1 -3 )
其中的K + 1 K+1 K +1模态表示的是拼接起来后的多模态特征，也即是式子(1-1)所示的损失。关键问题有两个：

这些模态均衡系数w i w_i w i 应该怎么确定
这些模态均衡系数是在线计算（动态更新）还是离线计算（静态计算后使用）

显然，均衡系数是一个超参数，单纯靠网格搜索或人工调参肯定不显示，而且无法解决关键问题2，也即是动态更新。因此作者提出了一种确定多模态均衡系数的方法。

Fig 1.2 (a)多模态训练得到的模型总是比最优的单模态训练模型更差；(b) 采用了一些常用的正则手段也无法获得有效的效果提升。

首先需要定义出一个度量以衡量该模态的过拟合与泛化情况，如Fig 1.3所示，作者定义了一种综合度量模型的过拟合与泛化情况的指标，其定义为过拟合程度与泛化程度的比值的绝对值，如式子(1-4)所示。其中Δ O N , n = O N + n − O N \Delta O_{N,n} = O_{N+n}-O_{N}ΔO N ,n =O N +n −O N ，而O N = L N V − L N T O_{N}=\mathcal{L}{N}^{V}-\mathcal{L}{N}^{T}O N =L N V −L N T ，表示为训练损失和验证损失的差值，其可被认为是 过拟合大小，显然该值越大，过拟合程度越大。而Δ O N , n \Delta O_{N,n}ΔO N ,n 表示第N N N个epoch与第N + n N+n N +n个epoch之间的过拟合程度差值。那怎么表示泛化能力呢？可以通过第N N N个epoch与第N + n N+n N +n个epoch之间的验证损失L ∗ \mathcal{L}^{}L ∗的差值表示两个checkpoint之间的泛化能力差值。也就是说可以将式子(1-4)认为是两个epoch的checkpoint之间的过拟合程度与泛化程度比值的差分。显然我们希望OGR指标越小越好。注意此处的L ∗ \mathcal{L}^{}L ∗表示理想中的真实验证损失，通常会用有限的验证集损失去近似，表示为L V \mathcal{L}^{V}L V。后续我们都用L V \mathcal{L}^{V}L V代替L ∗ \mathcal{L}^{}L ∗。
O G R = ∣ Δ O N , n Δ G N , n ∣ = ∣ O N + n − O N L N ∗ − L N + n ∗ ∣ (1-4) OGR = \Bigg |\dfrac{\Delta O_{N,n}}{\Delta G_{N,n}} \Bigg | = \Bigg | \dfrac{O_{N+n}-O_{N}}{\mathcal{L}^{}{N} – \mathcal{L}^{*}{N+n}} \Bigg | \tag{1-4}O G R =∣∣∣∣∣ΔG N ,n ΔO N ,n ∣∣∣∣∣=∣∣∣∣∣L N ∗−L N +n ∗O N +n −O N ∣∣∣∣∣(1 -4 )
显然有
Δ O N , n = L N + n V − L N + n T − ( L N V + L N T ) = Δ L V − Δ L T (1-5) \Delta O_{N,n} = L^{V}{N+n}-L^{T}{N+n}-(L^{V}{N}+L^{T}{N}) = \Delta L^{V} – \Delta L^{T} \tag{1-5}ΔO N ,n =L N +n V −L N +n T −(L N V +L N T )=ΔL V −ΔL T (1 -5 )
然而对于欠拟合的模型来说，可能Δ O N , n \Delta O_{N,n}ΔO N ,n 足够小也会导致OGR指标也很小，但是这并没有意义，因为模型仍然未学习好。因此此处用无穷小量进行衡量，也即是有：
lim ⁡ n → 0 ∣ Δ O N , n Δ G N , n ∣ = ∣ ∂ O N , n ∂ G N , n ∣ (1-6) \lim_{n \rightarrow 0} \Bigg |\dfrac{\Delta O_{N,n}}{\Delta G_{N,n}} \Bigg | = \Bigg |\dfrac{\partial O_{N,n}}{\partial G_{N,n}} \Bigg | \tag{1-6}n →0 lim ∣∣∣∣∣ΔG N ,n ΔO N ,n ∣∣∣∣∣=∣∣∣∣∣∂G N ,n ∂O N ,n ∣∣∣∣∣(1 -6 )
当然，由于此处的n n n有实际的模型含义（一个step），也就是说其实应该是n → 1 n\rightarrow 1 n →1，也就是只有1个step的参数更新。对此我们对损失进行一阶泰勒展开有：
L T ( Θ + η g ^ ) ≈ L T ( Θ ) + η < ∇ L T , g ^ > L V ( Θ + η g ^ ) ≈ L V ( Θ ) + η < ∇ L V , g ^ > (1-7) \begin{aligned} \mathcal{L}^{T}(\Theta+\eta \hat{g}) &\approx \mathcal{L}^{T}(\Theta)+\eta L T (Θ+ηg ^)L V (Θ+ηg ^)≈L T (Θ)+η<∇L T ,g ^>≈L V (Θ)+η<∇L V ,g ^>(1 -7 )
结合(1-5)和(1-7)我们有：
∂ O N , n = η < ∇ L V − ∇ L T , g ^ > ∂ G N , n = η < ∇ L V , g ^ > (1-8) \begin{aligned} \partial O_{N,n} &= \eta ∂O N ,n ∂G N ,n =η<∇L V −∇L T ,g ^>=η<∇L V ,g ^>(1 -8 )
因此有：
O G R 2 = ( < ∇ L V − ∇ L T , g ^ > < ∇ L V , g ^ > ) 2 (1-9) OGR^2 = \Bigg ( \dfrac{O G R 2 =(<∇L V ,g ^><∇L V −∇L T ,g ^>)2 (1 -9 )

Fig 1.3 定义出OGR以描述该模态模型下的过拟合与泛化情况。

此时我们对每个模态的梯度{ g ^ i } i = 1 M {\hat{g}i}{i=1}^M {g ^i }i =1 M 进行预估，这个预估通过各模态对应的分类器梯度反向求导得到，表示为{ v k } 1 M {v_k}_{1}^M {v k }1 M ，当满足E [ < ∇ L T − ∇ L V , v k > < ∇ L T − ∇ L V , v j > ] = 0 \mathbb{E}[E [<∇L T −∇L V ,v k ><∇L T −∇L V ,v j >]=0，其中j ≠ k j \neq k j =k时，并且给定约束∑ k w k = 1 \sum_k w_k=1 ∑k w k =1，我们的对O G R 2 OGR^2 O G R 2求最小值以求得最佳的模态均衡参数，表示为(1-10):
w ∗ = arg ⁡ min ⁡ w E [ ( < ∇ L T − ∇ L V , ∑ k w k v k > < ∇ L V , ∑ k w k v k > ) 2 ] (1-10) w^{} = \arg\min_{w} \mathbb{E} \Bigg [ \Bigg ( \dfrac{w ∗=ar g w min E (<∇L V ,∑k w k v k ><∇L T −∇L V ,∑k w k v k >)2
原文[1]中对其进行了解析解的证明，这里就不展开了，其解析解如(1-11):
w k ∗ = 1 Z < ∇ L V , v k > σ k 2 (1-11) w^{}_k = \dfrac{1}{Z} \dfrac{w k ∗=Z 1 σk 2 <∇L V ,v k >(1 -1 1 )
其中σ k 2 = E [ < ∇ L T − ∇ L V , v k > 2 ] \sigma^2_k = \mathbb{E}[σk 2 =E [<∇L T −∇L V ,v k >2 ]， Z = ∑ k < ∇ L V , v k > 2 σ k 2 Z = \sum_k \dfrac{Z =∑k 2 σk 2 <∇L V ,v k >是标准化常数项。由此可计算出最佳的模态均衡系数，回答了我们之前提出的第一个问题。

在实践中，再强调下，正如一开始所说的，∇ L ∗ \nabla \mathcal{L}^∇L ∗无法得到，因此通常会从训练集中划出一部分V V V作为子集去验证，得到∇ L V \nabla \mathcal{L}^V ∇L V，用此去近似∇ L ∗ \nabla \mathcal{L}^∇L ∗。此时我们可以正式去描述Gradient-Blending（GB）算法了，我们的数据集包括训练集T T T，训练集中划出来的验证集V V V，k k k个输入模态{ m i } i = 1 k {m_i}^k_{i=1}{m i }i =1 k 以及一个多模态拼接得到的特征m k + 1 m_{k+1}m k +1 。对于GB算法来说，有两种形式：

离线Gradient-Blending：只计算一次模态均衡参数，并且在以后的训练中都一直固定。
在线Gradient-Blending：将会定期（比如每n个epoch-也称之为super epoch）更新，并且用新的模态均衡参数参与后续的训练。

Fig 1.4 Gradient-Blending用于模态均衡系数估计；离线与在线Gradient-Blending。

离在线GB算法和GB估计模态均衡参数的算法见Fig 1.4，作者发现采用了GB估计模态均衡参数后，无论是离线还是在线的G-Blend结合了多模态分类模型训练后，效果都比单模态模型有着显著的提升，并且离线效果仅仅比在线效果差一些，而在线G-Blend的计算代价远比离线高，因此后续的实验都是用离线G-Blend展开的。

Fig 1.5 采用了G-Blend之后，多模态分类效果比单模态训练有着明显提升。数据集是Kinetics。

作者同样对比了不同epoch下在线G-Blend学习出的模态均衡参数的分布，如Fig 1.6(a)所示，可以发现其在不同epoch下其参数分布都不同，在15-20和20-25的时候甚至出现了Video部分和Audio-Video部分独占鳌头的情况，作者认为这是由于在不同训练阶段其过拟合和泛化行为特征都会改变，导致均衡参数也在一直变化，但是不管怎么样，其效果都会比不采用G-Blend的多模态分类训练更好，如Fig 1.6(b)所示。

Fig 1.6 (a)对在线G-Blend算法的均衡参数的探索；(b)采用了G-Blend后 VS 未采用的多模态训练效果对比。

同样的，G-Blend不仅仅适用于Video/Audio这两个模态，还能在其他模态下生效，如Fig 1.7所示。

Fig 1.7 光流，音频，RGB模态的任意混合中，G-Blend都能取得较大的效果提升。

笔者从业务的角度上看，在进行图-文/视频-文匹配的时候，经常会采用双塔多模态匹配，最后对匹配损失进行优化的实践，如[3,4,5]。这个时候由于任务只关注了多模态匹配任务，而没有考虑维持单模态内的特征空间稳定性，此时容易导致单模态内的特征空间破损。如Fig 1.8所示，其中的Fig 1.8(a)图片虽然都和猫有关，但是显然一种是真的猫，一种是猫相关的书法作品，但是这两类的文本信息可能都包含有猫，在进行多模态匹配的时候如果不考虑单模态的损失，就会导致如Fig 1.8(b)所示的单模态特征空间破损，将一些细粒度的单模态知识给『遗忘』了。

Fig 1.8 (a)单模态之间有着更为细粒度的知识；(b)在多模态训练中容易被『遗忘』。

; Reference

[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).

[2]. https://blog.csdn.net/LoseInVain/article/details/105545703，《万字长文漫谈视频理解》 by FesianXu

[3]. https://fesian.blog.csdn.net/article/details/120364242，《图文搜索系统中的多模态模型：将MoCo应用在多模态对比学习上》 by FesianXu

[4]. https://fesian.blog.csdn.net/article/details/119516894，《CLIP-对比图文多模态预训练的读后感》 by FesianXu

[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0：一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹》 by FesianXu

Original: https://blog.csdn.net/LoseInVain/article/details/124315252
Author: FesianXu
Title: 在多模态模型训练时，如何合适地融合单模态损失

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691334/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第9章 Stata聚类分析

目录 9.1划分聚类分析 1.数标准化处理 2.K个平均数的聚类分析 3.K个中位数的聚类分析案例延伸 1.采用其他相异性指标 2.设置聚类变量的名称 3.设置观测样本为初始聚类…

人工智能 2023年5月31日
0079
深度学习模型计算量评价指标FLOPs, MACs, MAdds关系

在评价深度学习模型的大小和计算量时，经常使用的参数有：parameters, FLOPs, MACs, MAdds。除此以外，我们还经常见到MAC, FLOPS, GFLOPS, …

人工智能 2023年5月23日
00159
数据分析之Pandas(基本操作)

目录 1. pandas简介 2. 导入pandas 3. Series的创建及属性 3.1 列表形式创建 3.2 字典形式创建 3.3 创建日期（periods为天数） 3.4 …

人工智能 2023年7月8日
0079
YOLOv5解析 | 参数与性能指标

传参 conf_thres与 iou_thres均位于 detect.py文件当中 conf_thres：Confidence Threshold，置信度阈值，即以下图片上的值。 …

人工智能 2023年6月17日
00129
单细胞降维聚类

单细胞数据最常用的聚类方法有两种， t-SNE和UMAP (Uniform Manifold Approximation and Projection (T-distributed…

人工智能 2023年5月31日
0096
pytorch-lightning安装

一般pytorch-lightning 需要torch版本≥1.8.0。在安装pytorch-lightning时一定注意自己的torch是pip安装还是conda安装，两者要保…

人工智能 2023年7月20日
0060
基于一个多分类问题比较bert单任务训练和多任务训练

笔者在学习基于huggingface实现多分类问题时，使用了kaggle比赛中的Feedback Prize – Predicting Effective Argume…

人工智能 2023年7月3日
0045
pyecharts制作中国疫情地图

#数据源：https://github.com/BlankerL/DXY-COVID-19-Data #工具：jupyter notebook + python3.6.5-amd…

人工智能 2023年7月8日
0092
Leetcode 2 两数相加

给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式存储的，并且每个节点只能存储一数字。请你将两个数相加，并以相同形式返回一个表示和的链表。可以假设除了数字 …

人工智能 2023年6月4日
0078
PDAF原理简介

1.PDAF原理原理：是在感光芯片上预留出一些规律性对称的遮蔽像素点，专门用来进行相位检测，通过像素之间的距离及变化来决定对焦的偏移量即相位差（PD值）从而实现快速对焦。 1.1…

人工智能 2023年6月24日
0075
28、Java高级特性——集合：Set接口、HashSet集合、Map接口、 Map集合

目录课前先导：一、Set接口二、HashSet集合 1、HashSet类 2、 HashSet集合的特点 3、HashSet集合常用方法三、HashSet集合代码演示 1、…

人工智能 2023年6月27日
0074
KL散度损失函数

2021SC@SDUSC 之前学习了信息熵损失函数，之后来学习KI散度损失函数在我们使用的模型中，这个模型的输入样本和样本标签已定，它们所对应的真实分布概率也确定 KL散度（K…

人工智能 2023年6月17日
0087
pandas获取某一列数据_Pandas某一列是列表，怎么展开呢？

问题来了又是下午，昏昏欲睡。翻起了之前遇到的一个奇怪的需求，具体细节记不得了，只记得小姐姐当时一脸严肃的说，我这儿有一堆数据，某一列可能是列表，你把他们展开，一会儿给我。当时我还…

人工智能 2023年7月7日
0076
解决YOLOV5训练时P、R、mAP等值均为0的问题

最近用YOLOV5训练自己的数据集，出现了训练失败的情况，比如box，obj，cls，labels等均为nan或0，找了很多办法，其实就是cuda与PyTorch版本的问题 Epo…

人工智能 2023年5月26日
0090
样本选择模型 & 处理效应模型

一、样本选择偏差与自选择偏差样本选择偏差样本选择偏差的非随机选择机制在于对样本的选择不随机。在样本数据的采集过程中，只对某部分群体进行调查，但这部分群体与其他群体在某些方面的…

人工智能 2023年6月16日
00110
最新CUDA环境配置教程(ubuntu 20.04 + cuda 11.7 + cuDNN 8.4)

ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 1.查看是否有合适的…

人工智能 2023年7月5日
00106

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在多模态模型训练时，如何合适地融合单模态损失

大家都在看