【MMML】多模态机器学习高被引综述论文笔记

2023年6月16日上午2:39 • 人工智能 • 阅读 78

论文名称：Multimodal Machine Learning: A Survey and Taxonomy
论文下载：https://arxiv.org/abs/1705.09406
论文年份：TPAMI 2018
论文被引：1266（2022/04/09）

Abstract

Our experience of the world is multimodal – we see objects, hear sounds, feel texture, smell odors, and taste flavors. Modality refers to the way in which something happens or is experienced and a research problem is characterized as multimodal when it includes multiple such modalities. In order for Artificial Intelligence to make progress in understanding the world around us, it needs to be able to interpret such multimodal signals together. Multimodal machine learning aims to build models that can process and relate information from multiple modalities. It is a vibrant multi-disciplinary field of increasing importance and with extraordinary potential. Instead of focusing on specific multimodal applications, this paper surveys the recent advances in multimodal machine learning itself and presents them in a common taxonomy. We go beyond the typical early and late fusion categorization and identify broader challenges that are faced by multimodal machine learning, namely: representation, translation, alignment, fusion, and co-learning. This new taxonomy will enable researchers to better understand the state of the field and identify directions for future research.

我们对世界的体验是多模态的——我们看到物体、听到声音、感受质地、闻气味和品尝味道。 模态（Modality）是指某事发生或经历的方式，当一个研究问题包含多个这样的模态时，它就被描述为多模态。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够一起解释这些多模态信号。 多模态机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域，其重要性和潜力都在不断增加。 本文没有关注特定的多模态应用，而是调查了多模态机器学习本身的最新进展，并将它们呈现在一个共同的分类法中。我们超越了典型的早期和晚期融合分类，并确定了 多模态机器学习面临的更广泛的挑战：表示、翻译、对齐、融合和协同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况并确定未来研究的方向。

1 INTRODUCTION

我们周围的世界涉及多种模态——我们看到物体、听到声音、感觉质地、闻到气味等等。一般而言，模态是指某事发生或被体验的方式。大多数人将模态这个词与代表我们交流和感觉的主要渠道的感觉模态联系在一起，例如视觉或触觉。因此， 当一个研究问题或数据集包含多个此类模态时，它就被表征为多模态。本文主要关注三种模态： 可以书面或口头的自然语言；通常用图像或视频表示的视觉信号；和声音信号，编码声音和副语言信息，如韵律和声音表达。

为了让人工智能在理解我们周围的世界方面取得进展，它需要能够解释和推理多模态消息。多模态机器学习旨在构建可以处理和关联来自多种模态的信息的模型。从对视听语音识别的早期研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，其重要性和潜力都在增加。

鉴于数据的异构性，多模态机器学习的研究领域给计算研究人员带来了一些独特的挑战。从多模态资源中学习提供了捕获模态之间对应关系并深入了解自然现象的可能性。在本文中，我们确定并探讨了围绕多模态机器学习的五个核心技术挑战（以及相关的子挑战）。它们是多模态环境的核心，需要加以解决以推动该领域的发展。我们的分类超越了典型的早期和晚期融合分裂，包括以下五个挑战：

表示（Representation）：第一个基本挑战是学习 如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。 多模态数据的异质性（heterogeneity）使得构建这样的表示具有挑战性。例如，语言通常是象征性的，而音频和视觉形式将被表示为信号。
翻译（Translation）：第二个挑战涉及 如何将数据从一种模态转换（映射）到另一种模态。 不仅数据是异构的，而且模态之间的关系通常是开放式的（open-ended）或主观的。例如，存在多种描述图像的正确方法，并且可能不存在一种完美的翻译。
对齐（Alignment）：第三个挑战是 从两个或多个不同的模态中识别（子）元素之间的直接关系。例如，我们可能希望将食谱中的步骤与显示正在制作的菜肴的视频对齐。为了应对这一挑战，我们 需要测量不同模态之间的相似性并处理可能的长期依赖（dependencies）和歧义（ambiguities）。
融合（Fusion）：第四个挑战是 融合来自两个或多个模态的信息来执行预测。例如，对于视听语音识别，将嘴唇运动的视觉描述与语音信号融合以预测口语。 来自不同模态的信息可能具有不同的预测能力和噪声拓扑，并且可能在至少一种模态中丢失数据。
协同学习（Co-learning）：第五个挑战是 在模态、它们的表示和它们的预测模型之间迁移知识。这以协同训练（co-training）、概念基础（conceptual grounding）和零样本学习（zero-shot learning）的算法为例。协同学习探索了从一种模态中学习的知识如何帮助在不同模态上训练的计算模型。当其中一种模态的资源有限（例如，带标注的数据）时，这一挑战尤其重要。

对于这五个挑战中的每一个，我们定义了分类和子类，以帮助构建多模态机器学习这一新兴研究领域的最新工作。我们首先讨论多模态机器学习的主要应用（第 2 节），然后讨论多模态机器学习面临的所有五个核心技术挑战的最新发展：表示（第 3 节）、翻译（第 4 节）、对齐（第 5 节）、融合（第 6 节）和协同学习（第 7 节）。我们以第 8 节中的讨论结束。

2 APPLICATIONS: A HISTORICAL PERSPECTIVE

多模态机器学习支持广泛的应用：从视听语音识别到图像字幕。在本节中，我们将介绍多模态应用的简史，从最初的视听语音识别到最近重新对语言和视觉应用产生兴趣。

多模态研究的最早例子之一是 视听语音识别（audio-visual speech recognition，AVSR）[243]。它的动机是 McGurk 效应 [138]——在言语感知过程中听觉和视觉之间的相互作用。当人类受试者在看到一个说 /ga-ga/ 的人的嘴唇时听到音节 /ba-ba/ 时，他们会感知到第三种声音：/da-da/。这些结果 促使语音界的许多研究人员用视觉信息扩展他们的方法。鉴于当时隐藏马尔可夫模型（HMM）在语音社区中的突出地位 [95]，许多早期的 AVSR 模型基于各种 HMM 扩展 [24]、[25] 也就不足为奇了。虽然如今对 AVSR 的研究并不常见，但它已经引起了深度学习社区的新兴趣 [151]。

虽然 AVSR 的最初愿景是提高所有上下文中的语音识别性能（例如，单词错误率），但实验结果表明，视觉信息的主要优势在于语音信号嘈杂时（即低信噪比）[75]、[151]、[243]。 换句话说，捕捉到的模态之间的相互作用是补充的（supplementary），而不是互补的（complementary）。 两者都捕获了相同的信息，提高了多模态模型的鲁棒性，但没有提高无噪声场景中的语音识别性能。

多模态应用的第二个重要类别来自 多媒体内容索引（multimedia content indexing）和检索（retrieval）领域[11]，[188]。随着个人电脑和互联网的进步，数字化多媒体内容的数量急剧增加[2]。虽然早期索引和搜索这些多媒体视频的方法是基于关键字的[188]，但在尝试直接搜索视觉和多模态内容时出现了新的研究问题。这导致了多媒体内容分析的新研究课题，例如自动镜头边界检测（automatic shot-boundary detection）[123]和视频摘要（video summarization）[53]。这些研究项目得到了美国国家标准与技术研究院的 TrecVid 计划的支持，该计划引入了许多高质量的数据集，包括 2011 年开始的多媒体事件检测 (multimedia event detection，MED) 任务 [1]。

第三类应用是在 2000 年代初期围绕新兴的多模态交互领域建立的，其目标是 了解人类在社交互动中的多模态行为。在该领域收集的第一个具有里程碑意义的数据集之一是 AMI 会议语料库，其中包含 100 多个小时的会议视频记录，所有内容都完全转录和注释 [33]。另一个重要的数据集是 SEMAINE 语料库，它可以研究说话者和听众之间的人际动态[139]。该数据集构成了 2011 年组织的第一个 视听情感挑战 (audio-visual emotion challenge，AVEC) 的基础[179]。由于自动人脸检测、面部标志检测和面部表情识别方面的强大技术进步，情绪识别和情感计算领域在 2010 年代初蓬勃发展 [46]。 AVEC 挑战随后每年继续进行，随后的实例化包括 医疗保健应用，例如抑郁和焦虑的自动评估 [208]。D’Mello et al.[50] 发表了对多模态情感识别最新进展的重要总结。他们的分析表明，最近关于多模态情感识别的大部分工作在使用一种以上的模态时显示出改善，但在识别自然发生的情绪时这种改善会降低。

最近，出现了一种新的多模态应用程序，其重点是语言和视觉： 媒体描述（media description）。最具代表性的应用之一是 图像字幕（image captioning），其任务是 生成输入图像的文本描述 [83]。此类系统能够 帮助视障者完成日常任务[20]。媒体描述的主要挑战是评估： 如何评估预测描述的质量。最近提出了 视觉问答（visual question-answering，VQA）的任务来解决一些评估挑战[9]，其目标是回答有关图像的特定问题。

为了将上述一些应用带到现实世界，我们需要解决多模态机器学习面临的许多技术挑战。我们在表 1 中总结了上述应用领域的相关技术挑战。最重要的挑战之一是多模态表示，这是我们下一节的重点。

; 3 MULTIMODAL REPRESENTATIONS

以计算模型可以使用的格式表示原始数据一直是机器学习的一大挑战。继 Bengio 等人[18]的工作之后， 我们交替使用术语特征和表示，每个都指一个实体的向量或张量表示，无论是图像、音频样本、单个单词还是句子。 多模态表示是使用来自多个此类实体的信息的数据表示。表示多种模态会带来许多 困难：如何组合来自异构来源的数据；如何处理不同级别的噪音；以及如何处理丢失的数据。以有意义的方式表示数据的能力对于多模态问题至关重要，并构成任何模型的支柱。

良好的表示对于机器学习模型的性能很重要，正如最近语音识别 [79] 和视觉对象分类 [109] 系统性能的飞跃所证明的那样。Bengio et al. [18] 确定了 良好表示的许多属性：平滑度（smoothness）、时间和空间相干性（temporal and spatial coherence）、稀疏性（sparsity）和自然聚类（natural clustering）等。 Srivastava 和 Salakhutdinov [198] 确定了多模态表示的其他理想属性：表示空间中的相似性应该反映相应概念的相似性，即使在没有某些模态的情况下也应该很容易获得表示，最后，它应该可以在给定观察到的模态的情况下，来填补缺失的模态。

单模态表示（unimodal representations）的发展已被广泛研究 [5]、[18]、[122]。在过去的十年中，已经从针对特定应用程序的手工设计转变为数据驱动。例如，2000 年代初期最著名的图像描述符之一， 尺度不变特征变换 (scale invariant feature transform，SIFT) 是手工设计的 [127]，但目前大多数视觉描述是使用卷积神经网络 (CNN) 等神经架构从数据中学习的[109]。同样，在音频领域， Mel 频率倒谱系数 (Mel-frequency cepstral coefficients，MFCC) 等声学特征已被语音识别中的数据驱动深度神经网络 [79] 和用于副语言分析（para-linguistic analysis）的递归神经网络 [207] 所取代。在自然语言处理中，文本特征最初依赖于计算文档中出现的单词，但已被利用单词上下文的数据驱动的单词嵌入取代 [141]。 虽然在单模态表示方面有大量工作，但直到最近，大多数多模态表示都涉及单模态表示的简单连接 [50]，但这种情况正在迅速改变。

为了帮助理解工作的广度，我们提出了两类多模态表示： 联合（joint）和协调（coordinated）。 联合表示将单模态信号组合到相同的表示空间中，而协调表示分别处理单模态信号，但对它们施加某些相似性约束以将它们带到我们所说的协调空间。图 1 展示了不同的多模态表示类型。

在数学上，联合表示表示为：

x m = f ( x 1 , . . . , x n ) , ( 1 ) x_m = f(x_1, . . . , x_n), (1)x m =f (x 1 ,…,x n ),(1 )

其中多模态表示 x m x_m x m 是使用依赖于单模态表示 x 1 , . . . , x n x_1, …,x_n x 1 ,…,x n 的函数 f f f（例如，深度神经网络、受限玻尔兹曼机或递归神经网络）计算的。而协调表示如下：

f ( x 1 ) ∼ g ( x 2 ) , ( 2 ) f(x_1) ∼ g(x_2), (2)f (x 1 )∼g (x 2 ),(2 )

其中每个模态都有一个对应的投影函数（上面的 f 和 g），将其映射到一个协调的多模态空间。虽然对每个模态的多模态空间的投影是独立的，但结果空间在它们之间是协调的（表示为~）。这种协调的例子包括最小化余弦距离[61]，最大化相关性[7]，以及在结果空间之间强制执行偏序（partial order）[212]。

3.1 Joint Representations

我们从联合表示开始讨论，这些联合表示将单模态表示一起投射到多模态空间中（等式 1）。联合表示主要（但不限于）用于在训练和推理步骤中都存在多模态数据的任务。 联合表示的最简单示例是单个模态特征的串联（也称为早期融合 [50]）。在本节中，我们将讨论更高级的创建联合表示的方法，从神经网络开始，然后是图形模型和递归神经网络（代表性工作见表 2）。

神经网络已经成为一种非常流行的单模态数据表示方法[18]。它们用于表示视觉、声学和文本数据，并且越来越多地用于多模态领域 [151]、[156]、[217]。 在本节中，我们将描述如何使用神经网络来构建联合多模态表示、如何训练它们以及它们提供的优势。

一般来说，神经网络由连续的内积构建块和非线性激活函数组成。 为了使用神经网络来表示数据，首先要训练它执行特定任务（例如，识别图像中的对象）。 由于深度神经网络的多层性质，假设每个连续层以更抽象的方式表示数据 [18]，因此通常使用最后或倒数第二个神经层作为数据表示形式。为了使用神经网络构建多模态表示，每个模态都从几个单独的神经层开始，然后是一个隐藏层，将模态投影到联合空间。然后将联合多模态表示通过多个隐藏层本身传递或直接用于预测。这样的模型可以进行端到端的训练——学习表示数据和执行特定任务。这导致在使用神经网络时多模态表示学习和多模态融合之间存在密切关系。

由于神经网络需要大量标记的训练数据，因此通常使用自动编码器在无监督数据上预训练这些表示[80]。 [151] 提出的模型将使用自动编码器的想法扩展到多模态域。 他们使用堆叠去噪自编码器来分别表示每种模态，然后使用另一个自编码器层将它们融合成多模态表示。同样， [184] 建议使用多模态自动编码器来完成语义概念基础任务（task of semantic concept grounding）（参见第 7.2 节）。除了使用重建损失来训练表示之外，他们还在损失函数中引入了一个术语，该术语使用该表示来预测对象标签。在手头的特定任务上微调结果表示也很常见，因为使用自动编码器构建的表示是通用的，对于特定任务不一定是最佳的[217]。

基于神经网络的联合表示的主要优势来自于它们通常优越的性能和以无监督方式预训练表示的能力。 但是，性能增益取决于可用于训练的数据量。缺点之一是模型无法自然地处理丢失的数据——尽管有一些方法可以缓解这个问题 [151]、[217]。最后，深度网络通常难以训练 [69]，但该领域在更好的训练技术方面正在取得进展 [196]。

概率图形模型（Probabilistic graphical models）是另一种通过使用潜在随机变量来构建表示的流行方法 [18]。在本节中，我们将描述如何使用概率图形模型来表示单模态和多模态数据。

最流行的基于图形模型的表示方法是深度玻尔兹曼机 (DBM) [176]，它将受限玻尔兹曼机 (RBM) [81] 堆叠为构建块。与神经网络类似， DBM 的每个连续层都应该以更高的抽象级别表示数据。 DBM 的吸引力在于它们 不需要监督数据进行训练 [176]。由于它们是图模型，因此数据的表示是概率性的，但是可以将它们转换为确定性神经网络——但这失去了模型的生成方面 [176]。

[197] 的工作引入了多模态深度信念网络作为多模态表示。[104] 对每种模态使用深度信念网络，然后将它们组合成联合表示，用于视听情感识别。 [86] 对 AVSR 使用了类似的模型， [225] 用于基于音频和骨骼关节的手势识别。

[198] 已将多模态深度信念网络扩展到多模态 DBM。 多模态 DBM 能够通过在两个或多个无向图之上使用隐藏单元的二进制层合并两个或多个无向图来从多个模态中学习联合表示。 由于模型的无向性，它们允许每个模态的低级表示在联合训练后相互影响。

[156] 探索使用多模态 DBM 从多视图数据中进行人体姿态估计任务。他们证明，在单模态数据经历非线性变换之后，在后期整合数据对模型是有益的。同样，[199] 使用多模态 DBM 表示从正电子发射断层扫描和磁共振成像数据中执行阿尔茨海默病分类。

使用多模态 DBM 学习多模态表示的一大优势是它们的生成性，它允许一种简单的方法来处理缺失的数据——即使整个模态缺失，模型也有一种自然的方式来应对。它还可用于在存在另一种模态或两种模态的情况下从表示中生成一种模态的样本。与自动编码器类似，可以以无监督的方式训练表示，从而可以使用未标记的数据。 DBM 的主要缺点是难以训练它们——计算成本高，并且需要使用近似变分训练方法 [198]。

顺序表示（Sequential Representation）。到目前为止，我们已经讨论了可以表示固定长度数据的模型，但是，我们经常需要表示不同长度的序列，例如句子、视频或音频流。在本节中，我们将描述可用于表示此类序列的模型。

递归神经网络 (RNN) 及其变体，如长短期记忆 (LSTM) 网络 [82]，由于它们在跨各种任务的序列建模方面取得了成功 [12]、[213]，因此最近受到欢迎。到目前为止，RNN 主要用于表示单词、音频或图像的单模态序列，在语言领域取得了最大的成功。与传统的神经网络类似， RNN 的隐藏状态可以看作是数据的表示，即 RNN 在时间步 t 的隐藏状态可以看作是到该时间步的序列的汇总。 这在 RNN 编码器解码器框架中尤为明显，其中编码器的任务是以解码器可以重建它的方式表示处于 RNN 隐藏状态的序列 [12]。

RNN 表示的使用并不仅限于单模态域。使用 RNN 构建多模态表示的早期使用来自 [43] 在 AVSR 上。它们还被用于表示用于情感识别的视听数据[37]、[152]，并表示多视图数据，例如用于人类行为分析的不同视觉线索[166]。

; 3.2 Coordinated Representations

联合多模态表示的替代方案是 协调表示（coordinated representation）。 我们不是将模态一起投影到一个联合空间中，而是为每个模态学习单独的表示，但通过约束来协调它们。我们从强制表示之间相似性的协调表示开始讨论，然后讨论在结果空间上强制执行更多结构的协调表示（表 2 中可以看到不同协调表示的代表性工作）。

相似性模型（Similarity models）最小化协调空间中模态之间的距离。例如，此类模型鼓励单词 dog 和狗的图像之间的距离小于单词 dog 和汽车图像之间的距离 [61]。这种表示的最早例子之一来自韦斯顿等人的工作。在通过图像嵌入的网络尺度注释模型（web scale annotation by image embedding，WSABIE）上，其中为图像及其注释构建了一个协调的空间。 WSABIE从图像和文本特征构建简单的线性映射，使得对应的注释和图像表示将比非对应的注释和图像表示之间具有更高的内积 (更小的余弦距离)。

最近，神经网络由于其学习表示的能力而成为构建协调表示的流行方式。 它们的优势在于它们可以以端到端的方式协同学习协调表示。这种协调表示的一个例子是DeViSE—— 深度视觉语义嵌入（deep visual-semantic embed-
ding）[61]。 DeViSE使用与WSABIE相似的内积和排名损失函数（ranking loss function），但使用更复杂的图像和单词嵌入。[105]通过使用LSTM模型和成对排序损失（pairwise ranking loss）来协调特征空间，将其扩展到句子和图像协调表示。[191]处理相同的任务，但是将语言模型扩展到依赖树RNN，以合并组合语义。[159]也提出了一个类似的模型，但使用视频而不是图像。[231]还使用一个主语、动词、宾语组合语言模型和一个深度视频模型构建了一个视频和句子之间的协调空间。这种表示然后被用于跨模态检索和视频描述的任务。

虽然上述模型加强了表示之间的相似性，但是结构化协调空间模型超出了这一点，并且加强了模态表示之间的附加约束。强制实施的结构类型通常基于应用程序，对哈希、跨模态检索和图像标题有不同的约束。

结构化协调空间通常用于跨模态哈希（cross-modal hashing），即将高维数据压缩成紧凑的二进制代码，其中相似的二进制代码用于相似的对象[218]。跨模态散列的思想是为跨模态检索创建这样的代码[27]、[93]、[113]。哈希对得到的多模态空间施加了某些限制：1）它必须是N维汉明空间——具有可控位数的二进制表示；2）来自不同模态的相同对象必须具有相似的哈希码；3）空间必须保持相似性。学习如何将数据表示为哈希函数试图实施所有这三个要求[27]，[113]。例如，Jiang和Li [92]介绍了一种使用端到端可训练深度学习技术来学习句子描述和相应图像之间的这种常见二进制空间的方法。而Cao等人[32]用更复杂的语句表示扩展了该方法，并引入了离群点不敏感的逐位余量损失和基于相关反馈的语义相似性约束。类似地，王等人[219]构建了一个协调空间，在该空间中，具有相似含义的图像(和6个句子)彼此更接近。

结构化协调表示的另一个例子来自图像和语言的 顺序嵌入（order-embedding）[212]，[249]。[212]提出的模型实施了 不对称的相异度度量，并在多模态空间中实现了偏序（partial oder）的概念。这个想法是为了捕捉语言和图像表达的部分顺序——在空间上加强层次结构；例如，”遛狗的女人”的图像→文本”遛狗的女人”→文本”散步的女人”。Young等人[238]也提出了使用表示图的类似模型，其中表示图用于诱导部分排序。最后，Zhang等人提出了如何利用文本和图像的结构化表示以无监督的方式创建概念分类法[249]。

结构化协调空间的一个特殊情况是基于 典型相关分析(canonical correlation analysis，CCA) [84]。 CCA计算线性投影，最大化两个随机变量(在我们的情况下是模态)之间的相关性，并加强新空间的正交性。CCA模型已广泛用于跨模态检索[76]、[106]、[169]和视听信号分析[177]、[187]。CCA的扩展试图构建一个相关性最大化的非线性投影[7]，[116]。 核典型相关分析(Kernel canonical correlation analysis，KCCA) [116] 使用再生核希尔伯特空间进行投影。然而， 由于这种方法是非参数的，它与训练集的大小不相称，并且对于非常大的真实世界数据集有问题。深度典型相关分析(DCCA) [7]是作为KCCA的一种替代方法引入的，它解决了可扩展性问题，也显示出可以产生更好的相关表示空间。类似的对应自动编码器[58]和深度对应RBMs（deep correspondence RBMs） [57]也被提出用于跨模态检索。

CCA、KCCA和DCCA是无监督的技术，并且仅优化表示的相关性，因此主要捕获跨模态共享的内容。深度正则相关自动编码器（Deep canonically correlated autoencoders）[220]还包括基于自动编码器的数据重建项。 这鼓励该表示也捕获模态特定的信息。 语义相关性最大化方法[248]也鼓励语义相关性，同时保留相关性最大化和结果空间的正交性——这导致了CCA和跨模态散列技术的组合。

3.3 Discussion

在这一节中，我们确定了两种主要的多模态表示形式——联合表示和协调表示。 联合表示将多模态数据投射到一个公共空间中，最适合于在推理过程中所有模态都存在的情况。它们已被广泛用于AVSR、情感和多模态手势识别。另一方面， 协调表示将每个模态投射到一个独立但协调的空间，使它们适合于在测试时只有一个模态存在的应用，例如：多模态检索和翻译(第4节)、基础(第7.2节)和零样本学习(第7.2节)。最后，虽然联合表征已经被用于构建多于两种模态的表征，但是协调空间迄今为止大多被限制于两种模态。

4 TRANSLATION

多模态机器学习的很大一部分与从一种模态到另一种模态的翻译(映射)有关。给定一个模态中的实体，任务是在不同的模态中生成相同的实体。例如， 给定一幅图像，我们可能希望生成一个描述它的句子，或者给定一个文本描述，生成与之匹配的图像。多模态翻译是一个长期研究的问题，早期的工作包括语音合成[88]，视觉语音生成[136]视频描述[107]和跨模态检索[169]。

最近，由于计算机视觉和自然语言处理(NLP)社区的共同努力[19]以及最近大型多模态数据集的可用性[38]，[205]， 多模态翻译重新引起了人们的兴趣。一个特别流行的问题是 视觉场景描述，也称为 图像[214]和视频字幕[213]，它是许多计算机视觉和NLP问题的一个很好的测试平台。为了解决这个问题， 我们不仅需要完全理解视觉场景并识别其突出部分，还需要产生语法正确、全面而简洁的句子来描述它。

虽然多模态翻译的方法非常广泛，而且通常是特定模态的，但它们有许多共同的因素。我们将它们分为两种类型—— 基于实例的（example-based）和生成式的（generative）。 基于实例的模型在模态之间转换时使用字典。另一方面， 生成模型构建了一个能够产生翻译的模型。这种 区别类似于非参数和参数机器学习方法之间的区别，如图2所示，表3总结了代表性的例子。

生成模型可以说更具挑战性，因为它们需要生成信号或符号序列(例如，句子)的能力。这对于任何形式的视觉、听觉或语言来说都是困难的， 尤其是当需要生成时间和结构上一致的序列时。这导致许多早期的多模态翻译系统依赖于基于实例的翻译。然而，随着能够生成图像[171]、[210]、声音[157]、[209]和文本[12]的深度学习模型的出现，这种情况一直在发生变化。

; 4.1 Example-based

基于示例的算法受到其训练数据字典的限制(见图2a)。我们确定了两种类型的算法:基于检索的和基于组合的。基于检索的模型直接使用检索到的翻译而不修改它，而基于组合的模型依赖于更复杂的规则来基于许多检索到的实例创建翻译。

基于检索的模型（Retrieval-based models）可以说是最简单的多模态翻译形式。他们依赖于在字典中找到最接近的样本，并将其作为翻译结果。检索可以在单模态空间或中间语义空间中进行。

给定要翻译的源模态实例，单模态检索在字典中查找源空间中最接近的实例，例如，图像的视觉特征空间。这种方法已经被用于视觉语音合成，通过检索期望音素的最接近的匹配视觉示例[26]。它们也被用于拼接的文本到语音系统[88]。最近，[155]使用单模态检索，通过使用全局图像特征来检索字幕候选来生成图像描述。[232]使用基于CNN的图像表示，通过自适应邻域选择来检索视觉上相似的图像。[49]证明，与更复杂的生成方法相比，具有一致字幕选择的简单k-最近邻检索实现了有竞争力的翻译结果。 这种单模态检索方法的优点是，它们只需要表示进行检索的单一模态。然而，它们通常需要额外的处理步骤，例如对检索到的翻译进行重新排序[135]、[155]、[232]。这表明了这种方法的一个主要问题—— 单模态空间中的相似性并不总是意味着好的翻译。

一种替代方法是在检索期间使用中间语义空间进行相似性比较。手工制作的语义空间的一个早期例子是将句子和图像映射到一个对象、动作、场景的空间，然后在该空间中检索图像的相关标题。与手工制作表示相反，[191]学习句子和CNN视觉特征的协调表示(见第3.2节协调空间的描述)。他们使用该模型进行文本到图像以及图像到文本的翻译。类似地，[231]使用视频及其描述的协调空间进行跨模态检索。[93] [32]使用跨模态哈希来执行从图像到句子以及从句子到图像的多模态翻译，[83]使用多模态KCCA空间来进行图像句子检索。 [99]提出了一种多模态相似性度量，该度量在内部将图像片段(视觉对象)与句子片段(依存关系树)对齐在一起，而不是在公共空间中全局对齐图像和句子。

语义空间中的检索方法往往比它们的单模态对应物表现得更好，因为它们在更有意义的空间中检索示例，该空间反映了两种模态并且通常为检索而优化。此外，它们允许双向翻译，这对于单模态方法来说是不直接的。然而，它们需要人工构建或学习这样的语义空间，这通常依赖于大型训练字典(成对样本的数据集)的存在。

基于组合的模型（Combination-based models）将基于检索的方法向前推进了一步。他们不是仅仅从字典中检索例子，而是以一种有意义的方式将它们结合起来，以构建一个更好的翻译。 基于组合的媒体描述方法是由图像的句子描述共享可被利用的公共且简单的结构所激发的。大多数情况下， 组合规则是手工制定的，或者是基于启发式的。

[114]首先检索描述视觉上相似的图像的短语，然后通过使用整数线性规划和大量手工制作的规则将它们组合起来以生成查询图像的新颖描述。[74]首先找到与源图像最相似的k个图像，然后使用从它们的字幕中提取的短语来生成目标句子。[119]使用基于CNN的图像表示来推断描述它的短语。然后使用三元模型约束语言模型来组合预测的短语。

基于实例的翻译方法面临的一个大问题是， 模型就是整个字典，这使得模型很大，推理很慢(尽管哈希等优化缓解了这个问题)。基于实例的翻译面临的另一个问题是， 期望字典中总是存在与源实例相关的单一全面和准确的翻译是不现实的——除非任务简单或者字典非常大。这可以通过能够构建更复杂结构的组合模型来部分解决。然而，它们 只能执行一个方向的翻译，而基于语义空间检索的模型能够执行两个方向的翻译。

4.2 Generative approaches

多模态翻译的生成方法构建了能够在给定单模态源实例的情况下执行多模态翻译的模型。这是一个具有挑战性的问题，因为它需要既能理解源模态又能产生目标序列或信号的能力。正如在下一节中所讨论的，由于可能的正确答案的空间很大，这也使得这样的方法更加难以评估。

在这个调查中，我们关注三种形态的产生：语言、视觉和声音。语言生成已经被探索了很长时间[170]，最近对图像和视频描述等任务给予了很多关注[19]。语音和声音生成也经历了许多历史[88]和现代方法[157]，[209]的工作。照片级逼真图像生成的探索较少，仍处于早期阶段[132]，[171]，然而，在生成抽象场景[253]，计算机图形[45]和说话的头部[6]方面已经有了许多尝试。

我们将生成模型分为三大类：基于语法的模型、编码器-解码器模型和连续生成模型。基于语法的模型通过使用语法限制目标域来简化任务，例如通过基于hsubject、object、verbi模板生成受限制的句子。 编码器-解码器模型首先将源模态编码为潜在表示，然后由解码器使用该潜在表示来生成目标模态。连续生成模型基于源通道输入流连续生成目标通道，最适合时间序列之间的翻译，如文本到语音转换。

基于语法的模型依赖于预定义的语法来生成特定的模态。它们 首先从源模态中检测高级概念，例如图像中的对象和视频中的动作。这些检测然后与基于预定义语法的生成过程结合在一起，以产生目标模态。

[107]提出了一种在视频中描述人类行为的系统，该系统使用检测到的人的头和手的位置以及基于规则的自然语言生成，该自然语言生成结合了概念和动作的层次结构。[14]提出了一个视频描述模型，该模型生成以下形式的句子：谁对谁做了什么，在哪里以及他们是如何做的。该系统基于手工制作的对象和事件分类器，并使用适合该任务的受限语法。[73]使用语义层次来预测描述视频的主语、动词和宾语三元组，语义层次在不确定的情况下使用更一般的词。结合语言模型，他们的方法允许翻译字典中没有的动词和名词。

一些基于语法的方法依赖于图形模型来生成目标模态。一个例子包括[112]，它给定图像生成 hobject、preposition、objecti 三元组，它们与条件随机场一起使用来构造句子。[233]使用从图像中提取的视觉特征预测一组名词、动词、场景、介词候选者，并使用统计语言模型和隐马尔可夫模型风格推断将它们组合成一个句子。 [204]提出了类似的方法。其中因子图模型用于hsubject，verb，object，placei形式的视频描述。因子模型利用语言统计来处理嘈杂的视觉表示。 [253] 提出使用条件随机场来生成基于从句子中提取的语言三元组的抽象视觉场景。

基于语法的方法的一个优点是它们更有可能生成语法（在语言的情况下）或逻辑正确的目标实例，因为它们使用预定义的模板和受限语法。然而，这限制了他们制作公式化而不是创造性的翻译。此外， 基于语法的方法依赖于复杂的概念检测管道，每个概念都需要单独的模型和单独的训练数据集。

基于 端到端训练的神经网络的编码器-解码器模型是目前最流行的多模态翻译技术之一。该模型背后的主要思想是 首先将源模态编码为矢量表示，然后使用解码器模块生成目标模态，所有这些都在单通道管道中完成。尽管首先用于机器翻译 [97]，但此类模型已成功用于图像描述 [134]、[214] 和视频描述 [174]、[213]。到目前为止，编码器解码器模型主要用于生成文本，但它们也可用于生成图像[132]、[171]，以及连续生成语音和声音[157]、[209]。

编码器-解码器模型（Encoder-decoder models）的第一步是对源对象进行编码，这是以特定于模态的方式完成的。对声音信号进行编码的流行模型包括 RNN [35] 和 DBN [79]。大 多数关于编码单词句子的工作使用分布语义[141]和RNNs的变体[12]。图像最常使用卷积神经网络 (CNN) [109]、[185] 进行编码。虽然学习的 CNN 表示对于编码图像很常见，但对于仍然普遍使用手工制作特征的视频来说，情况并非如此 [174]、[204]。虽然可以使用单模态表示来对源模态进行编码，但已经表明，使用协调空间（参见第 3.2 节）可以获得更好的结果 [105]、[159]、[231]。

解码通常由 RNN 或 LSTM 使用编码表示作为初始隐藏状态 [54]、[132]、[214]、[215] 执行。已经对传统的 LSTM 模型提出了许多扩展，以帮助完成翻译任务。引导向量可用于紧密耦合图像输入中的解决方案 [91]。 [213] 证明，在将其微调为视频描述之前，对解码器 LSTM 进行图像字幕的预训练是有益的。 [174] 探索使用各种 LSTM 架构（单层、多层、因子）以及许多训练和正则化技术来完成视频描述任务。

使用 RNN 生成翻译面临的一个问题是模型必须从图像、句子或视频的单个矢量表示中生成描述。这在生成长序列时变得特别困难，因为这些模型往往会忘记初始输入。神经注意力模型（参见第 5.2 节）已部分解决了这一问题，该模型允许网络在生成过程中专注于图像 [230]、句子 [12] 或视频 [236] 的某些部分。

基于生成注意的 RNN 也被用于从句子生成图像的任务 [132]，虽然结果仍然远非照片般逼真，但它们显示出很大的希望。最近， 使用生成对抗网络 [71] 在生成图像方面取得了很大进展，这些网络已被用作 RNN 的替代方案，用于从文本生成图像 [171]。

尽管基于神经网络的编码器-解码器系统已经非常成功，但它们仍然面临着许多问题。[49] 表明 网络可能正在记忆训练数据，而不是学习如何理解视觉场景并生成它。这是基于观察到 k 近邻模型的性能与基于生成的模型非常相似。此外， 此类模型通常需要大量数据进行训练。

连续生成模型旨在以在线方式在每个时间步进行序列转换并产生输出。这些模型在从序列转换为序列（例如文本到语音、语音到文本和视频到文本）时很有用。已经为此类建模提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。这些模型需要解决的额外困难是模态之间的时间一致性要求。

许多关于序列到序列转换的早期工作使用图或潜在变量模型。[47] 提出使用共享高斯过程潜变量模型进行基于音频的视觉语音合成。该模型在音频和视觉特征之间创建了一个共享的潜在空间，可用于从另一个空间生成一个空间，同时在不同时间步强制视觉语音的时间一致性。隐马尔可夫模型（HMM）也被用于视觉语音生成[203]和文本到语音[245]任务。它们还被扩展为使用集群自适应训练，以允许对多个说话者、语言和情绪进行训练，从而在生成语音信号 [244] 或视觉语音参数 [6] 时进行更多控制。

编码器-解码器模型最近在序列到序列建模中变得流行。[157] 使用 LSTM 根据视频生成由鼓槌产生的声音。虽然他们的模型能够通过从 CNN 视觉特征预测耳蜗图来生成声音，但他们发现根据预测的耳蜗图检索最接近的音频样本会产生最佳结果。[209]提出了直接建模用于语音和音乐生成的原始音频信号。作者建议使用分层的全卷积神经网络，该网络在语音合成任务方面比以前的最新技术有了很大的改进。 RNN 也被用于语音到文本的翻译（语音识别）[72]。最近， 基于编码器-解码器的连续方法被证明擅长从表示为滤波器组频谱的语音信号中预测字母 [35]——允许更准确地识别稀有和词汇表外的单词。[42] 演示了如何直接使用原始音频信号进行语音识别，从而消除对音频特征的需求。

许多早期的工作使用图形模型在连续信号之间进行多模态转换。然而，这些方法正在被基于神经网络编码器-解码器的技术所取代。特别是因为它们最近已被证明能够表示和生成复杂的视觉和听觉信号。

4.3 Model evaluation and discussion

多模态翻译方法面临的一个主要挑战是它们 很难评估。虽然语音识别等一些任务只有一个正确的翻译，但语音合成和媒体描述等任务却没有。有时，就像在语言翻译中一样，多个答案都是正确的，决定哪种翻译更好通常是主观的。幸运的是，有许多 有助于模型评估的近似自动指标。

通常，评 估主观任务的理想方法是通过人类判断。那就是让一群人评估每个翻译。这可以 在李克特量表（Likert scale）上完成，其中每个翻译都在某个维度上进行评估：语音合成的自然度和平均意见得分 [209]、[244]、视觉语音合成的真实性 [6]、[203] 以及语法和媒体描述的语义正确性、相关性、顺序和细节[38]、[112]、[142]、[213]。另一种选择是进行偏好研究，其中将两个（或更多）翻译呈现给参与者进行偏好比较 [203]、[244]。然而，虽然用户研究将导致最接近人类判断的评估，但它们既耗时又昂贵。此外，他们在构建和执行它们时需要小心，以避免流利程度、年龄、性别和文化偏见。

虽然人类研究是评估的黄金标准，但已经为媒体描述任务提出了许多 自动替代方案：BLEU [160]、ROUGE [124]、Meteor [48] 和 CIDEr [211]。这些指标 直接取自（或基于）机器翻译中的工作，并计算一个分数，以衡量生成的文本和真实文本之间的相似性。然而，它们的使用受到了很多批评。[52] 表明，句子级 unigram BLEU 仅与人类判断微弱相关。[87] 证明，对于视觉故事讲述任务，人类判断与 BLEU 和 Meteor 之间的相关性非常低。此外，基于人类判断的方法排序与在 MS COCO 挑战 [38] 中使用自动指标的排序不匹配——大量算法在所有指标上都优于人类。最后， 只有当参考翻译数量很高时，这些指标才能很好地发挥作用 [211]，这通常是不可用的，尤其是对于当前的视频描述数据集 [205]。

[83] 建议使用检索作为图像字幕评估的代理，他们认为这更好地反映了人类的判断。基于检索的系统不是生成字幕，而是根据它们与图像的匹配度对可用的字幕进行排名，然后通过评估正确的字幕是否被赋予高等级来进行评估。由于许多字幕生成模型是生成的，它们可以直接用于评估给定图像的字幕的可能性，并且正在被图像字幕社区 [99]、[105] 改编。这种基于检索的评估指标也被视频字幕社区采用[175]。

视觉问答 (Visual question-answering，VQA) [130] 任务的提出部分是由于图像描述评估面临的问题。 VQA 是一项，在给定图像和有关其内容的问题时，系统必须回答它的任务。由于存在正确答案，因此评估此类系统更容易。但是，它仍然面临某些问题和答案的模糊性和问题偏见等问题。

我们认为，解决评估问题对于多模态翻译系统的进一步成功至关重要。这不仅可以更好地比较方法，还可以优化目标。

5 ALIGNMENT

我们将多模态对齐定义为从两个或多个模态中找到实例的子组件之间的关系和对应关系。例如， 给定一张图像和一个标题，我们希望找到与标题的单词或短语相对应的图像区域 [98]。另一个例子是， 给定一部电影，将其与剧本或它所基于的书籍章节对齐[252]。

我们将多模态对齐分为两种类型——隐式（implicit）和显式（explicit）。在显式对齐中，我们明确感兴趣的是对齐模态之间的子组件，例如，将配方步骤（recipe steps）与相应的教学视频对齐 [131]。隐式对齐被用作另一个任务的中间（通常是潜在的）步骤，例如，基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤 [99]。这些方法的概述可以在表 4 中看到，并在以下部分中更详细地介绍。

; 5.1 Explicit alignment

如果论文的主要建模目标是来自两个或多个模态的实例的子组件之间的对齐，我们将论文归类为执行显式对齐。 显式对齐的一个非常重要的部分是相似度度量。大多数方法 依赖于测量不同模态中子组件之间的相似性作为基本构建块。这些相似性可以手动定义或从数据中学习。

我们确定了两种处理显式对齐的算法——无监督和（弱）监督。第一种类型在来自不同模态的实例之间没有直接对齐标签（即标记对应）。第二种类型可以访问此类（有时很弱）标签。

无监督多模态对齐处理模态对齐，而不需要任何直接对齐标签。大多数方法的灵感来自于统计机器翻译 [28] 和基因组序列 [3]、[111] 对齐的早期工作。为了使任务更容易，这些方法假设了对齐的某些约束，例如序列的时间排序或模态之间存在相似性度量。

动态时间规整 (Dynamic time warping，DTW) [3]、[111] 是一种动态规划方法，已广泛用于对齐多视图时间序列。 DTW 测量两个序列之间的相似性，并通过时间扭曲（插入帧）找到它们之间的最佳匹配。它要求两个序列中的时间步长具有可比性，并且需要它们之间的相似性度量。通过手工制作模态之间的相似性度量，DTW 可以直接用于多模态对齐；[8] 在字素和音素之间使用手动定义的相似度；[201]根据相同字符的外观定义视觉场景和句子之间的相似性[201]，以对齐电视节目和情节概要。类似 DTW 的动态规划方法也已用于文本到语音 [77] 和视频 [202] 的多模态对齐。

由于原始 DTW 公式需要模态之间的预定义相似性度量，因此使用典型相关分析 (canonical correlation analysis，CCA) 对其进行了扩展，以将模态映射到协调空间。这允许对齐（通过 DTW）和学习不同模态流之间的映射（通过 CCA）联合和以无监督的方式 [180]、[250]、[251]。虽然基于 CCA 的 DTW 模型能够在线性变换下找到多模态数据对齐，但它们 不能对非线性关系进行建模。这已通过深度规范时间规整方法 [206] 得到解决，该方法可以看作是深度 CCA 和 DTW 的推广。

各种图模型（graphical models）也很流行以无监督方式进行多模态序列比对。[239] 的早期工作使用生成图形模型将图像中的视觉对象与口语单词对齐。 [44] 采用了类似的方法，将电影镜头和场景与相应的剧本对齐。[131] 使用分解的 HMM 将食谱与烹饪视频对齐，而 [154] 使用动态贝叶斯网络将说话者与视频对齐。 [147] 使用分层 HMM 模型将句子与帧对齐，并使用改进的 IBM [28] 算法进行单词和对象对齐 [15]，将句子与相应的视频帧匹配。然后将该模型扩展为使用潜在条件随机场进行对齐[146]，并将动词对齐合并到除了名词和对象之外的动作[195]。

用于对齐的 DTW 和图模型方法都允许对对齐进行限制，例如时间一致性、时间上没有大的跳跃和单调性。虽然 DTW 扩展允许联合学习相似度度量和对齐，但 基于图模型的方法需要专家知识来构建 [44]、[239]。监督对齐方法依赖于标记对齐的样本。它们用于训练用于对齐模态的相似性度量。

许多有监督的序列比对技术都从无监督的技术中汲取灵感。[22]、[23] 提出了一种类似于规范时间扭曲的方法，但也对其进行了扩展，以利用现有的（弱）监督对齐数据进行模型训练。 [161] 使用 CCA 在图像区域和短语之间找到协调空间以进行对齐。 [65] 训练了一个高斯混合模型，并与一个无监督的潜变量图形模型一起执行了半监督聚类，以将音频通道中的说话者与其在视频中的位置对齐。孔等人。 [108] 训练了一个马尔科夫随机场，将 3D 场景中的对象与文本描述中的名词和代词对齐。

由于最近在语言和视觉社区 [133]、[161] 中对齐数据集的可用性，基于深度学习的方法正变得流行用于显式对齐（特别是用于测量相似性）。[252] 通过训练 CNN 来测量场景和文本之间的相似性，将书籍与其相应的电影/脚本对齐。[133] 使用 LSTM 语言模型和 CNN 视觉模型来评估引用表达式和图像中对象之间的匹配质量。[242]将此模型扩展为包括相对外观和上下文信息，从而可以更好地消除相同类型的对象之间的歧义。最后，[85] 使用基于 LSTM 的评分函数来查找图像区域及其描述之间的相似性。

5.2 Implicit alignment

与显式对齐相反，隐式对齐被用作另一个任务的中间（通常是潜在的）步骤。这允许在许多任务中获得更好的性能，包括语音识别、机器翻译、媒体描述和视觉问答。此类模型不会显式对齐数据，也不依赖有监督的对齐示例，而是学习如何在模型训练期间潜在地对齐数据。我们确定了两种类型的隐式对齐模型：基于图形模型的早期工作和更现代的神经网络方法。

图形模型已经看到一些早期的工作用于更好地对齐语言之间的单词以进行机器翻译 [216] 以及语音音素与其转录的对齐 [186]。然而，它们需要手动构建模态之间的映射，例如将音素映射到声学特征的生成音素模型[186]。构建此类模型需要训练数据或人类专业知识来手动定义它们。

神经网络翻译（第 4 节）是建模任务的一个示例，如果将对齐作为潜在的中间步骤执行，则该任务通常可以得到改进。正如我们之前提到的，神经网络是解决这个翻译问题的流行方法，使用编码器-解码器模型或通过跨模态检索。当在没有隐式对齐的情况下执行翻译时，它最终会在编码器模块上施加很大的权重，以便能够使用单个矢量表示正确地总结整个图像、句子或视频。

解决这个问题的一种非常流行的方法是通过注意力[12]，它允许解码器专注于源实例的子组件。这与将所有源子组件一起编码形成对比，正如在传统的编码器-解码器模型中执行的那样。注意模块将告诉解码器更多地查看要翻译的源的目标子组件——图像区域 [230]、句子中的单词 [12]、音频序列的片段 [35]、[39] 、视频中的帧和区域[236]、[241]，甚至是指令的一部分[140]。例如，在图像字幕中，而不是使用 CNN 对整个图像进行编码，注意力机制将允许解码器（通常是 RNN）在生成每个连续单词时专注于图像的特定部分 [230]。学习要关注图像的哪一部分的注意力模块通常是一个浅层神经网络，并与目标任务（例如翻译）一起进行端到端训练。

注意模型也已成功应用于问答任务，因为它们允许将问题中的单词与信息源的子组件对齐，例如一段文本 [228]、图像 [62] 或视频序列[246]。这既可以提高问答性能，又可以提高模型的可解释性 [4]。特别是，已经提出了不同类型的注意力模型来解决这个问题，包括分层[128]、堆叠[234]和情景记忆注意力[228]。

[98]，[99]提出了另一种将图像与标题对齐以进行跨模态检索的神经替代方案。他们提出的模型通过使用图像区域和单词表示之间的点积相似度度量将句子片段与图像区域对齐。虽然它不使用注意力，但它通过训练检索模型间接学习的相似性度量来提取模态之间的潜在对齐。

5.3 Discussion

多模态对齐面临许多困难： 1）具有明确注释对齐的数据集很少； 2）难以设计模态之间的相似性度量； 3）可能存在多种可能的对齐方式，并且并非一种模态中的所有元素在另一种模态中都有对应关系。早期关于多模态对齐的工作侧重于使用图模型和动态编程技术以无监督方式对齐多模态序列。它依靠手动定义的模态之间的相似性度量或以无人监督的方式学习它们。随着最近标记训练数据的可用性，对模态之间相似性的监督学习成为可能。然而，学习联合对齐和翻译或融合数据的无监督技术也变得流行起来。

6 FUSION

多模态融合是多模态机器学习的原始主题之一，以前的调查强调早期、晚期和混合融合方法 [50]、[247]。用技术术语来说， 多模态融合是整合来自多个模态的信息以预测结果度量的概念：通过分类的类别（例如，快乐与悲伤），或通过回归的连续值（例如，情绪的积极性） 。它是多模态机器学习研究最多的方面之一，其工作可追溯到 25 年前 [243]。

对多模态融合的兴趣源于它可以提供的三个主要好处。首先， 能够访问观察相同现象的多种模态可能允许更稳健的预测。 AVSR 社区已经特别探索和利用了这一点[163]。其次， 访问多种模态可能使我们能够捕获互补信息——这些信息在单独的模态中是不可见的。第三， 当其中一种模态缺失时，多模态系统仍然可以运行，例如当人不说话时从视觉信号中识别情绪[50]。

多模态融合具有非常广泛的应用，包括视听语音识别（AVSR）[163]、多模态情感识别[192]、医学图像分析[89]和多媒体事件检测[117]。关于这个主题有很多综述 [11]、[163]、[188]、[247]。他们中的大多数专注于特定任务的多模态融合，例如多媒体分析、信息检索或情感识别。相比之下， 我们专注于机器学习方法本身以及与这些方法相关的技术挑战。

虽然一些先前的工作使用术语多模态融合来包括所有多模态算法，但在本论文中，当在后期预测阶段执行多模态整合时，我们将方法分类为融合类别，目的是预测结果测量。在最近的工作中，对于表示学习与分类或回归目标交织的深度神经网络等模型，多模态表示和融合之间的界限已经变得模糊。正如我们将在本节中描述的那样，这条线对于其他方法（例如图形模型和基于内核的方法）更加清晰。

我们将多模态融合分为两大类： 不直接依赖于特定机器学习方法的模型无关方法（第 6.1 节）；和 基于模型（第 6.2 节）的方法，它们在构建过程中明确解决融合问题——例如基于核的方法、图模型和神经网络。表 5 对这些方法进行了概述。

; 6.1 Model-agnostic approaches

从历史上看，绝大多数多模态融合都是使用与模型无关的方法 [50] 完成的。这种方法可以分为早期（即基于特征）、晚期（即基于决策）和混合融合[11]。早期融合在提取特征后立即集成特征（通常通过简单地连接（concatenation）它们的表示）。另一方面，后期融合在每种模态做出决定（例如，分类或回归）之后执行整合。最后，混合融合结合了早期融合和单个单模态预测器的输出。模型无关方法的一个优点是它们 可以使用几乎任何单模态分类器或回归器来实现。

早期融合可以被视为多模态研究人员进行多模态表示学习的初步尝试——因为它 可以学习利用每种模态的低级特征之间的相关性和相互作用。此外，它只需要训练单个模型，与后期和混合融合相比，训练管道更容易。

相比之下，后期融合使用单模态决策值并使用融合机制融合它们，例如平均 [181]、投票方案 [144]、基于信道噪声的加权 [163] 和信号方差 [53]，或学习模型 [68]。它允许对每种模态使用不同的模型，因为不同的预测器可以更好地对每个单独的模态进行建模，从而提供更大的灵活性。此外，当缺少一种或多种模态时，它可以更容易地进行预测，甚至可以在没有可用并行数据时进行训练。然而，后期融合忽略了模态之间的低级交互。

混合融合试图在一个共同的框架中利用上述两种方法的优点。它已成功用于多模态说话人识别 [226] 和多媒体事件检测 (MED) [117]。

6.2 Model-based approaches

虽然使用单模态机器学习方法很容易实现与模型无关的方法，但它们最终使用的技术并非旨在处理多模态数据。在本节中，我们描述了三类旨在执行多模态融合的方法：基于内核的方法、图形模型和神经网络。

多核学习 (Multiple kernel learning，MKL) 方法是核支持向量机 (SVM) 的扩展，允许将不同的核用于数据的不同模态/视图 [70]。由于 内核可以被视为数据点之间的相似函数，因此 MKL 中特定于模态的内核可以更好地融合异构数据。

MKL 方法一直是一种特别流行的融合视觉描述符以进行对象检测的方法 [31]、[66]，并且直到最近才被用于任务的深度学习方法所取代 [109]。他们还看到了多模态情感识别 [36]、[90]、[182]、多模态情感分析 [162] 和多媒体事件检测 (MED) [237] 的用途。此外， [137] 提出使用 MKL 从声学、语义和社会视图数据中执行音乐艺术家相似度排名。最后，[125] 在阿尔茨海默病分类中使用 MKL 进行多模态融合。 它们的广泛适用性证明了这些方法在不同领域和不同模态中的优势。

除了内核选择的灵活性之外，MKL 的一个优点是 损失函数是凸的，允许使用标准优化包和全局最优解决方案进行模型训练 [70]。此外， MKL 可用于执行回归和分类。 MKL 的主要缺点之一是 在测试期间依赖训练数据（支持向量），导致推理速度慢和内存占用大。

图模型是多模态融合的另一类流行方法。在本节中，我们概述了使用浅图模型在多模态融合方面所做的工作。深度图模型（例如深度信念网络）的描述可以在第 3.1 节中找到。

大多数图模型可以分为两大类：生成——建模联合概率；或判别式——建模条件概率 [200]。使用图形模型进行多模态融合的一些最早方法包括生成模型，例如耦合 [149] 和阶乘隐马尔可夫模型 [67] 以及动态贝叶斯网络 [64]。最近提出的多流 HMM 方法提出了 AVSR [75] 模态的动态加权。

可以说，生成模型失去了对诸如条件随机场（conditional random fields，CRF）[115]之类的判别模型的普及，后者牺牲了联合概率的建模来获得预测能力。通过结合图像描述的视觉和文本信息，使用 CRF 模型更好地分割图像 [60]。 CRF 模型已扩展到使用隐藏条件随机场 [165] 对潜在状态进行建模，并已应用于多模态会议分割 [173]。潜在变量判别图形模型的其他多模态使用包括多视图隐藏 CRF [194] 和潜在变量模型 [193]。[93] 已经展示了多模态隐藏条件随机场对多媒体分类任务的好处。虽然大多数图形模型都针对分类，但 CRF 模型已扩展到用于回归的连续版本 [164]，并应用于多模态设置 [13] 以进行视听情感识别。

图模型的好处是它们能够轻松利用数据的空间和时间结构，使其特别适用于时间建模任务，例如 AVSR 和多模态情感识别。它们还允许将人类专家知识构建到模型中。并经常导致可解释的模型。

神经网络已被广泛用于多模态融合的任务[151]。最早使用神经网络进行多模态融合的例子来自 A VSR [163]。如今，它们被用于融合视觉和媒体问答[63]、[130]、[229]、手势识别[150]、情感分析[96]、[153]和视频描述生成[94]的信息。虽然使用的模态、架构和优化技术可能不同，但在 神经网络的联合隐藏层中融合信息的总体思路保持不变。

神经网络也被用于通过使用 RNN 和 LSTM 来融合时间多模态信息。较早的此类应用之一使用双向 LSTM 来执行视听情感分类 [224]。[223] 使用 LSTM 模型进行连续多模态情感识别，证明了其优于图形模型和 SVM 的优势。同样，[152] 使用 LSTM 进行连续情绪预测。他们提出的方法使用 LSTM 来融合来自特定模态（音频和面部表情）LSTM 的结果。

通过循环神经网络进行模态融合已被用于各种图像字幕任务，示例模型包括：神经图像字幕[214]，其中使用 LSTM 语言模型解码 CNN 图像表示，gLSTM [91] 将图像数据与在每个时间步进行句子解码，将视觉和句子数据融合在一个联合表示中。 [166]提出的多视图 LSTM (MV-LSTM) 模型。 MV-LSTM 模型允许在 LSTM 框架中灵活地融合模态，方法是显式地对特定模态和跨模态交互进行建模。

深度神经网络方法在数据融合中的一大优势是它们能够从大量数据中学习。其次，最近的神经架构允许对多模态表示组件和融合组件进行端到端训练。最后， 与基于非神经网络的系统相比，它们表现出良好的性能，并且能够学习其他方法难以解决的复杂决策边界。

神经网络方法的主要缺点是它们缺乏可解释性。很难说出预测依赖于什么，以及哪些模态或特征起重要作用。此外，神经网络 需要大量的训练数据集才能成功。

6.3 Discussion

多模态融合一直是一个广泛研究的主题，提出了大量的方法来解决它，包括模型不可知论方法、图形模型、多核学习和各种类型的神经网络。每种方法都有自己的优点和缺点，其中一些更适合较小的数据集，而另一些则在嘈杂的环境中表现更好。最近，神经网络已成为解决多模态融合的一种非常流行的方法，但仍在使用图形模型和多核学习，特别是在训练数据有限或模型可解释性很重要的任务中。

尽管取得了这些进步，多模态融合仍然面临以下挑战： 1）信号可能在时间上没有对齐（可能是密集的连续信号和稀疏事件）； 2）很难建立利用补充信息而不是补充信息的模型； 3) 每种模态可能在不同时间点表现出不同类型和不同级别的噪声。

7 CO-LEARNING

我们分类中的最后一个多模态挑战是协同学习—— 通过利用来自另一个（资源丰富）模态的知识来帮助对一个（资源贫乏）模态进行建模。当其中一种模态的资源有限——缺乏注释数据、嘈杂的输入和不可靠的标签时，这一点尤其重要。我们将此挑战称为协同学习，因为 大多数情况下，辅助模态仅在模型训练期间使用，而不在测试期间使用。我们根据训练资源确定了三种类型的 协同学习方法：并行、非并行和混合。并行数据方法需要训练数据集，其中一种模态的观察与其他模态的观察直接相关。换句话说，当多模态观察来自相同的实例时，例如在视听语音数据集中，视频和语音样本来自同一个说话者。相比之下，非平行数据方法不需要来自不同模态的观察之间的直接联系。这些方法通常通过使用类别重叠来实现协同学习。例如，在零样本学习中，当使用来自 Wikipedia 的第二个纯文本数据集扩展传统的视觉对象识别数据集以提高视觉对象识别的泛化性时。在混合数据设置中，模态通过共享模态或数据集进行桥接。表 6 中概述了协同学习中的方法，图 3 中总结了数据并行性。

; 7.1 Parallel data

在 并行数据协同学习中， 两种模态共享一组实例——带有相应视频、图像及其句子描述的录音。这 允许两种类型的算法利用该数据来更好地对模态进行建模：协同训练和表示学习。

协同训练是当我们在多模态问题中标记样本很少时创建更多标记训练样本的过程[21]。基本算法在每种模态中构建弱分类器，以使用未标记数据的标签相互引导。它已被证明可以根据网页本身和超链接在 [21] 的开创性工作中发现更多的网页分类训练样本。 根据定义，该任务需要并行数据，因为它依赖于多模态样本的重叠。

协同训练已被用于统计解析 [178] 以构建更好的视觉检测器 [120] 和视听语音识别 [40]。通过过滤掉不可靠的样本[41]，它还被扩展到处理模态之间的分歧。 虽然协同训练是生成更多标记数据的强大方法，但它也可能导致训练样本有偏差，从而导致过拟合。

迁移学习是利用并行数据进行协同学习的另一种方法。多模态表示学习（第 3.1 节）方法，例如多模态深度玻尔兹曼机 [198] 和多模态自动编码器 [151] 将信息从一种模态的表示传递到另一种模态的表示。这不仅会导致多模态表示，而且还会导致 更好的单模态表示，在测试期间只使用一种模态[151]。

[143] 展示了如何将信息从语音识别神经网络（基于音频）传输到唇读神经网络（基于图像），从而获得更好的视觉表示，以及一种无需测试期间需要音频信息。同样，Arora 和 Livescu [10] 在声学和发音（嘴唇、舌头和下巴的位置）数据上使用 CCA 构建更好的声学特征。他们仅在 CCA 构建期间使用发音数据，并且在测试期间仅使用生成的声学（单模态）表示。

7.2 Non-parallel data

依赖 非并行数据的方法不需要模态具有共享实例，而只需要共享类别或概念。非并行协同学习方法 可以在学习表示时提供帮助，允许更好的语义概念理解，甚至执行看不见的对象识别。

迁移学习也可以在非并行数据上进行，并允许通过将信息从使用数据丰富或干净的模态构建的表示转移到数据稀缺或嘈杂的模态来学习更好的表示。这种类型的迁移学习通常是 通过使用协调的多模态表示来实现的（参见第 3.2 节）。例如，[61] 通过将 CNN 视觉特征与在单独的大型数据集上训练的 word2vec 文本特征 [141] 协调，使用文本来改进图像分类的视觉表示。以这种方式训练的视觉表示会导致更有意义的错误——将对象误认为是相似类别的对象 [61]。 Mahasseni 和 Todorovic [129] 演示了如何使用在 3D 骨架数据上训练的自动编码器 LSTM 通过强制隐藏状态之间的相似性来规范基于彩色视频的 LSTM。这种方法能够改进原始的 LSTM，并在动作识别方面取得最先进的性能。

概念基础是指学习语义含义或概念，不仅基于语言，还基于视觉、声音甚至气味等其他形式[16]。虽然大多数概念学习方法都是纯粹基于语言的，但人类对意义的表示不仅仅是我们语言接触的产物，而且还基于我们的感觉运动经验和知觉系统 [17]、[126]。人类语义知识在很大程度上依赖于感知信息[126]，许多概念都基于感知系统，而不是纯粹的符号[17]。这意味着纯粹从文本信息中学习语义意义可能不是最优的，并促使使用视觉或听觉线索来为我们的语言表示奠定基础。

从 [59] 的工作开始，接地通常通过在表示 [59]、[183]（在并行数据集的情况下）之间找到公共潜在空间或通过分别学习单模态表示然后将它们连接起来来执行到多模态的 [29]、[101]、[172]、[181]（在非并行数据的情况下）。一旦构建了多模态表示，它就可以用于纯粹的语言任务。[181] 和 [29] 使用接地表示来更好地分类隐喻和文字语言。这种表示对于测量概念相似性和相关性也很有用——识别两个词在语义或概念上的相关性如何 [30]、[101]、[183] 或动作 [172]。此外，概念不仅可以使用视觉信号，还可以使用声学信号，从而获得更好的性能，特别是在具有听觉关联的单词 [103]，甚至是具有气味关联的单词的嗅觉信号 [102] 上。最后，多模态对齐和概念基础之间有很多重叠，因为将视觉场景与其描述对齐会导致更好的文本或视觉表示 [108]、[161]、[172]、[240]。

已发现概念基础是提高多项任务绩效的有效方法。它还表明，语言和视觉（或音频）是互补的信息来源，将它们结合在多模态模型中通常可以提高性能。然而，必须小心，因为接地并不总是会带来更好的性能[102]、[103]，并且只有在接地与任务相关时才有意义——例如使用图像进行视觉相关概念的接地。

零样本学习 (Zero shot learning，ZSL) 是指在没有明确看到任何样本的情况下识别概念。例如， 在从未见过（标记）猫的图像的情况下对图像中的猫进行分类。在视觉对象分类等许多任务中，这是一个需要解决的重要问题：为每个可想象的感兴趣对象提供训练示例的成本非常高。

ZSL 有两种主要类型——单模态和多模态。单模态 ZSL 查看对象的组成部分或属性，例如识别未听过的单词的音素或颜色、大小和形状等视觉属性以预测未见过的视觉类别 [55]。多模态 ZSL 通过辅助模态的帮助识别主要模态中的对象 – 在其中看到对象。 ZSL 的多模态版本是根据定义面临非并行数据的问题，因为所见类的重叠在模态之间是不同的。

[190] 将图像特征映射到概念词空间，并能够在可见和不可见概念之间进行分类。然后可以将看不见的概念分配给接近视觉表示的单词——这是通过在一个单独的数据集上训练语义空间来实现的，该数据集已经看到了更多的概念。而不是学习从视觉空间到概念空间的映射。学习允许 ZSL 的概念和图像之间的协调多模态表示。[158] 根据功能磁共振图像对人们正在思考的单词进行预测，他们展示了如何通过使用中间语义空间来预测看不见的单词。[118] 通过神经网络将提取的视觉特征向量映射到基于文本的向量，提出了一种 ZSL 的快速映射方法。

7.3 Hybrid data

在混合数据设置中，两个非并行模态由共享模态或数据集桥接（参见图 3c）。最值得注意的例子是 桥式相关神经网络（Bridge Correlational Neural Network）[167]，它使用中枢模态（pivot modality）在存在非平行数据的情况下学习协调的多模态表示。例如，在多语言图像字幕的情况下，图像模态将始终与任何语言的至少一个字幕配对。这些方法也被用于连接可能没有并行语料库但可以访问共享枢纽语言的语言，例如机器翻译[148]、[167]和文档音译[100]。

一些方法不是使用单独的桥接模态，而是依赖于来自类似或相关任务的大型数据集的存在，以在仅包含有限注释数据的任务中获得更好的性能。[189] 使用大文本语料库的存在来指导图像分割。而[78] 使用单独训练的视觉模型和语言模型来产生更好的图像和视频描述系统，但只有有限的数据可用。

7.4 Discussion

多模态协同学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。值得注意的是，协同学习是独立于任务的，可用于创建更好的融合、翻译和对齐模型。这一挑战以协同训练、多模态表示学习、概念基础和零样本学习 (ZSL) 等算法为例，并在视觉分类、动作识别、视听语音识别和语义相似性估计中找到了许多应用。

8 CONCLUSION

作为本次调查的一部分，我们介绍了多模态机器学习的分类：表示、翻译、融合、对齐和协同学习。其中一些如融合已经被研究了很长时间，但最近对表示和翻译的兴趣导致了大量新的多模态算法和令人兴奋的多模态应用。

我们相信我们的分类法将有助于对未来的研究论文进行分类，并更好地理解多模态机器学习面临的剩余未解决问题。

Original: https://blog.csdn.net/weixin_39653948/article/details/124058606
Author: datamonday
Title: 【MMML】多模态机器学习高被引综述论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619153/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

这篇文章结合了CNN的归纳偏置，基于局部窗口做注意力，并且逐步融合到深层transformer层中构建表征，来达到扩大感受野，并且极大降低了计算量。是一个特征提取的主干网络，bac…

人工智能 2023年6月23日
0055
三、人工神经网络基础

人工神经网络基础参考：https://blog.csdn.net/weixin_39653948/article/details/105090584 1.人工神经网络（ANN）及…

人工智能 2023年7月17日
0076
win10 安装 GPU版TensorFlow

WIN10安装CUDA9+CUDNN+TENSORFLOW1.9.0 安装环境：笔记本电脑win10专业版操作系统 + 1050显卡 1、安装CUDA9 地址：https://de…

人工智能 2023年5月24日
0083
PyTorch SparseTensor 稀疏张量

torch竟然没有from scipy这种方法。。。。真的是。。 idx , LongTensor, shape=(2,nnz) val , FloatTensor, shape=…

人工智能 2023年7月21日
0051
北京大学曹建老师tensorflow慕课中在运行GRU模型时，history = model.fit（）中遇到的问题：object has no attribute ‘dtype‘

1.在运行下方代码时，遇到了 history = model.fit(x_train, y_train, batch_size=64, epochs=50, validation_…

人工智能 2023年5月25日
0093
【pytorch】关于OpenCV和PIL.Image读取图片的区别

首先从pytorch出发，torchvision.transforms()要求传入的图像是PIL.Image格式（通道要求是RGB格式的），另外模型处理输入要转换为[1,chann…

人工智能 2023年7月23日
0060
扩散模型原理和pytorch代码实现初学资料汇总

1.扩散模型和分数匹配模型的资源和论文的汇总 https://github.com/heejkoo/Awesome-Diffusion-Models 是一个github网站 2. …

人工智能 2023年7月20日
0069
【OpenCV（C++）快速入门】–上篇–计算机图像颜色基础理论

【专栏介绍】因为专业需要用到OpenCV来处理图像数据，所以需要学习，搜索了网上的相关资料，整体知识比较零散，花费了较多时间，所以才萌生了将学习过程整理成专栏的形式，希望能帮到后…

人工智能 2023年7月19日
0074
基于BiLSTM的回归预测方法

0、前言采用BiLSTM算法实现回归预测，并对BiLSTM的学习率，迭代次数，batchs ize，和各层节点数进行优化。 1、BiLSTM原理请参考大佬的模型讲解，本文不再赘…

人工智能 2023年6月17日
0095
信息隐藏与数字水印实验：图片类隐写（MATLAB）

文章目录一、在BMP图像中隐藏数据 * 实验一：在BMP图像数据后隐藏数据实验二：在文件头与图像数据之间隐藏信息二、图像LSB隐写 * 实验一：在图像中嵌入相同分辨率的二值图…

人工智能 2023年6月20日
0090
自然语言处理_知识图谱与自然语言处理的故事

你指尖跃动的代码，是我此生不变的信仰，唯我NLP永世长存。从NLP和知识图谱说起本人的主要领域是知识图谱的方向，但是自然语言处理是知识图谱是绕不开的话题，一种普遍看法是知识图谱…

人工智能 2023年6月10日
0076
Python之DataFrame基础用法

引入库 import pandas as pd import numpy as np pandas官方文档：https://pandas.pydata.org/pandas-doc…

人工智能 2023年7月7日
0047
具有神经网络思维的Logistic回归

** 1 – Packages（导入包，加载数据集） 1.1导入包其中，用到的Python包有：◎numpy 是使用Python进行科学计算的基础包。◎h5py Py…

人工智能 2023年6月18日
0067
《30天吃掉那只 TensorFlow2.0》 3-3 高阶API示范

3-3 高阶API示范文章目录 * – 3-3 高阶API示范 – + 一，线性回归模型 + * 1，准备数据 * 2，定义模型 * 3，训练模型 + 二…

人工智能 2023年5月24日
0084
使用AI CoNR 算法，仅仅利用4张动漫图片——便可以创建舞蹈视频

上期视频我们分享了一个AI算法，本期我们就分享一下实现代码此AI算法称之为CoNR，该技术通过基于多个动画指定姿势来创建舞蹈视频。 ——1—— 什么是CoNR？下面是 CoNR…

人工智能 2023年5月30日
0069
自然语言处理综述

1 自然语言处理简介自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学…

人工智能 2023年6月16日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31