多模态技术简单介绍

大纲

多模态表示学习

  • 联合表示学习:将多峰信息映射到统一的多峰向量空间
    [En]

    Joint representation learning: mapping multimodal information together to a unified multimodal vector space*

    多模态技术简单介绍
  • 协同表示学习:多模式中的每个模式分别映射到自己的向量表示空间,但映射后的向量满足一定的相关性约束。
    [En]

    Collaborative representation learning: each mode in the multi-mode is mapped to its own vector representation space respectively, but the mapped vector satisfies certain correlation constraints.*

    多模态技术简单介绍

; 模态转换

它也可以称为映射,主要是将一种模式的信息转换或映射到另一种模式。

[En]

It can also be called mapping, which mainly converts or maps the information of one mode to another mode.

主要应用·
机器翻译(Machine Translation)、唇读(Lip Reading)和语音翻译(SpeechTranslation)
图片描述(lmage Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)

对齐

模态对齐

  • 显式对齐
  • 隐式对齐

多模态融合

多模态融合(Multimodal Fusion )负责联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

  • 数据级:数据通过模型简单地融合在一起并处理在一起
    [En]

    data level: data are simply fused together and processed together through models*

    多模态技术简单介绍
    _斜体样式_效果可能不太好,对模型要求高。
  • 决策层:在进入决策阶段时,提取不同的特征向量并进行相关处理。
    [En]

    decision level: different feature vectors are extracted and related processing is carried out when entering the decision stage.*

    多模态技术简单介绍
    更为常见,实现起来较为简单
  • 组合融合:模型结构每一层的融合过程。
    [En]

    Combinatorial fusion: the process of fusion in each layer of the model structure.

    多模态技术简单介绍
    对水平要求比较高,理论效果最好 *
    相关任务:
  • 多模态情感分析
    多模态技术简单介绍
  • 视觉-音频识别
    多模态技术简单介绍

; 协同学习

通过使用丰富的资源(例如大量数据)的模式知识来辅助稀缺资源(例如小数据)的模式建模。

[En]

The modal modeling of scarce resources (such as small data) is assisted by using the knowledge of modes that are rich in resources (such as a large amount of data).

Original: https://blog.csdn.net/qq_37893682/article/details/123257139
Author: 漠月
Title: 多模态技术简单介绍

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/497684/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球