多模态技术简单介绍

2023年5月23日下午7:35 • 人工智能 • 阅读 92

大纲

多模态表示学习
模态转换
对齐
多模态融合
协同学习

多模态表示学习

联合表示学习：将多峰信息映射到统一的多峰向量空间

[En]

Joint representation learning: mapping multimodal information together to a unified multimodal vector space*
协同表示学习：多模式中的每个模式分别映射到自己的向量表示空间，但映射后的向量满足一定的相关性约束。
[En]
Collaborative representation learning: each mode in the multi-mode is mapped to its own vector representation space respectively, but the mapped vector satisfies certain correlation constraints.*

; 模态转换

它也可以称为映射，主要是将一种模式的信息转换或映射到另一种模式。

[En]

It can also be called mapping, which mainly converts or maps the information of one mode to another mode.

主要应用·
机器翻译(Machine Translation)、唇读(Lip Reading)和语音翻译(SpeechTranslation)
图片描述(lmage Captioning)与视频描述(Video Captioning)
语音合成(Speech Synthesis)

对齐

模态对齐

显式对齐
隐式对齐

多模态融合

多模态融合（Multimodal Fusion ）负责联合多个模态的信息，进行目标预测（分类或者回归），属于 MMML 最早的研究方向之一，也是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合（Multi-source Information Fusion）、多传感器融合（Multi-sensor Fusion)。

数据级：数据通过模型简单地融合在一起并处理在一起

[En]

data level: data are simply fused together and processed together through models*

_斜体样式_效果可能不太好，对模型要求高。
决策层：在进入决策阶段时，提取不同的特征向量并进行相关处理。
[En]
decision level: different feature vectors are extracted and related processing is carried out when entering the decision stage.*

更为常见，实现起来较为简单
组合融合：模型结构每一层的融合过程。
[En]
Combinatorial fusion: the process of fusion in each layer of the model structure.

对水平要求比较高，理论效果最好 *
相关任务：
多模态情感分析
视觉-音频识别

; 协同学习

通过使用丰富的资源(例如大量数据)的模式知识来辅助稀缺资源(例如小数据)的模式建模。

[En]

The modal modeling of scarce resources (such as small data) is assisted by using the knowledge of modes that are rich in resources (such as a large amount of data).

Original: https://blog.csdn.net/qq_37893682/article/details/123257139
Author: 漠月
Title: 多模态技术简单介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/497684/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

C++：继承、模板、CRTP：谈谈C++多态设计模式（三）：函数模板

C++中不止有面向对象编程思想，还要泛型编程思想。而泛型编程思想的核心就是模板模板的建立大大提搞了复用行，C++中的模板包括：函数模板和类模板。函数模板概念：建立一个通…

人工智能 2023年7月31日
0080
vue3 新特性

重点：组合式API what——组合式 API ▣组合式 API 是一系列 API 的集合，使我们可以使用函数而不是声明选项的方式书写 Vue 组件。它是一个概括性的术语，涵盖了以…

人工智能 2023年6月26日
00100
10.绘制统计图形——箱线图

文章目录 1.应用场景——多组定量数据的分布比较 2.绘制原理 3.延伸——箱体、箱须、离群值的含义和计算方法 4.水平方向的箱线图 5.不绘制离群值的水平放置的箱线图箱线图是由…

人工智能 2023年7月15日
0097
【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph

【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph 核心要点：融合KG到BERT，并非是…

人工智能 2023年6月1日
00104
【小方法】python图片拼接(PIL模块)

使用场景：今天超级🦅识别验证码遇到一个问题，着张图片是由两张图片组成的，但是超级🦅识别点选验证码，只能传入一张图片，于是需要将两张图片进行一个拼接。当然截图也是可以的，但是截图…

人工智能 2023年7月5日
00123
Python 使用pandas库处理csv文件

Python数据分析系列第一章 csv文件处理进阶目录 Python数据分析系列一、pandas是什么？二、使用步骤 * 1.引入库 2.读入数据 3.数据获取和处理 &#…

人工智能 2023年6月19日
0092
Netty（一）- Netty与BIO、NIO、AIO介绍

文章目录一、Netty的介绍二、Netty的应用场景 * 1. 互联网行业 2. 游戏行业 3. 大数据领域三、I/O模型 * 1. Java BIO – （1）…

人工智能 2023年7月29日
0094
操作Pandas和Excel表格的区别

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。上次给大家分享了pandas的基础知识：。有没有学起来呢~🧐 今天主要来给大家粗略的介绍下操作panda…

人工智能 2023年7月6日
0097
PointRCNN网络结构及原理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0093
小程序公共方法及请求封装-图片视频上传

⭐ 小程序公共方法及请求封装 app.js /** * app.js * author: J1ay * 小程序部分公共方法封装 **/ App({ onLaunch() { // …

人工智能 2023年6月6日
00130
【基于yolov4-deepsort实现轨迹跟踪刻画、事故判别、检测区域目标计数等功能】

文前白话本文记录几个基于yolov4-deepsort的源码进行二次开发的项目，实现需要的功能，主要有：目标（各类车辆）检测与轨迹跟踪刻画；对道路监控摄像机的实时视频流进行碰…

人工智能 2023年7月9日
0071
推荐7个Python自动化办公免费学习资源~（数据分析、Python、VBA等）

欢迎大家收藏学习、留言分享你的学习收获，也欢迎将本文转发给需要的朋友哦～ 1、Python自动化办公（2021最新版！有源代码，适合小白~）课程链接：https://www.b…

人工智能 2023年6月11日
0087
[paper] lift,splat,shooting 论文浅析

目录 00 前言 01 创新点 02 算法细节 Lift:潜在深度分布： Splat: Pillar Pooling（支柱池） Shoot: Motion Planning 03 …

人工智能 2023年6月24日
0091
目标检测的Tricks | 【Trick12】分布式训练（Multi-GPU）与DistributedParallel使用相关总结

如有错误，恳请指出。用这篇博客记录多卡（也就是mutil-gpu）的使用，目的是加快训练过程，在pytorch中称之为分布式训练。在pytorch中主要使用的是Distribut…

人工智能 2023年7月12日
0084
使用OpenCV训练分类器时出现Error: Bad argument 和 Error: Insufficient memory 解决办法

OpenCV(3.4.1) Error: Bad argument (Can not get new positive sample. The most possible reas…

人工智能 2023年6月20日
0097
语音质量评估

MOS（Mean Opnion Score）平均意见得分。在实时通讯领域，国际电信联盟（ITU）将语音质量的主观评价方法做了标准化处理，代号为ITU-T P.800.1。其中收听…

人工智能 2023年5月25日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

多模态技术简单介绍

大纲

大家都在看