随笔记录——不同模态信号、表征与应用

基本概述

深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示(如语义、表征、编码知识等),并应用于不同的任务场景。

随笔记录——不同模态信号、表征与应用

如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):

  • 输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音)与人工信号(文本); 自然信号通常包含噪声、且信息冗余度较高,需要利用 全局/局部相关性实现去冗余; 人工信号是人工定义的包含一定语义的符号,通常需要 结合Context(语境)以预测其确切的语义表达,而且含糊不清的表述容易产生歧义;
  • 前处理:对于 自然信号,典型如标准化、降噪滤波、信号域变换(如时域转频域)、降采样等信号预处理;对于 人工信号,典型如文本信号的Tokenizer处理、Embedding查找表等;经前处理之后,信号将转为初步的特征表示,如Normalized image、Acoustic feature、Token embedding等;
  • 浅层处理:图像信号经浅层处理,能获取初步抽象的、细节性的特征(感受野较小),主要成分是低级的、高分辨率的纹理信息; 文本、语音等序列信号经浅层处理,基于Attention机制的Context上下文信息编码,就能转为较高层次的抽象语义、或特征表征;
  • 深层处理:图像信号经过进一步的深层处理,将转为高层次的抽象语义(感受野较大)、或特征表征,有时为了丰富深层特征的细节信息,会采用FPN结构以融合浅层特征; 序列信号的深层次处理可能是冗余的,尤其针对规模较小的下游任务,适当裁剪模型的网络深度、通常也不会影响预测精度,从而起到模型压缩与加速的目的;
  • 任务相关层:基于Backbone(包含了模型的浅层与深层)输出的抽象语义或特征表征,完成分类、回归等具体任务。基于视觉任务, 举例如下:
  • Semantic-level:分类任务,依赖全局语义的完美表示,如ImageNet图像分类;特征匹配,依赖模型的特征表征能力(即包含语义、又不失细节,方显完美),如人脸识别、商品检索、矢量召回等;
  • Instance-level:目标检测,依赖实例目标的语义表示、以及位置相关的纹理细节信息; 浅层特征由于感受野较小、富含纹理,适合小目标检测; 深层特征由于感受野较大、富含语义,适合大目标检测,当目标尺度接近原图范围时,则近似于图像分类;
  • Pixel-level:语义/实例分割,依赖实例的语义表征、纹理信息;Low-level图像任务(如图像增强、超分、插帧等),主要依赖图像的纹理信息、局部语义;
  • 后处理:完成预测信息的精细化加工,并应用于具体的任务场景;

基于大规模数据集的预训练方法(如监督学习、自监督学习、对比学习等),能够有效确保Backbone的语义抽象、特征表征与实例鉴别能力。

除了对单一模态信号处理、加工的应用范式,也存在如CLIP、M6、Switch Transformer等 多模态大模型,能实现多模特特征表征、内容理解、跨模态内容生成等任务。在具体的下游应用场景,大模型的压缩与知识蒸馏,是确保应用部署与泛化迁移的基础。

M6大模型的平台化应用,参考官网介绍:

大数据和AI案例体验馆

Bert/Transformer模型压缩与优化加速,参考如下讨论:

Bert/Transformer模型压缩与优化加速_AI Flash-CSDN博客_transformer模型加速

CLIP系列

简单介绍CLIP(图像文本双模态预训练模型)、以及视觉语言应用情况。

  • CLIP (Contrastive Language Image Pre-training):
  • 预训练数据集:经由4亿图像文本对的自监督预训练(对比学习),构建了统一的视觉/文本表征空间;
  • 模型结构:包含Image encoder(如ViT、ResNet等)、与Text encoder(如Transformer),分别用以提取视觉特征、与文本特征;视觉特征与文本特征之间,通过dot production计算相似度;
  • Zero-shot应用:针对特定的下游任务,需人工设计Prompt、并与任务标签文本(如类目文本)相连接,以提取文本特征;典型下游任务如图文搜索、图像描述、图像分类等;CLIP亦可应用于Fine-tuning或Linear probe;

随笔记录——不同模态信号、表征与应用
  • Open Vocabulary Object Detection:
  • ​​​​​​​基于CLIP的知识迁移,将目标检测器的特征表征、统一到CLIP表征空间,以增强目标检测器在开放词汇场景的Zero-shot应用能力;

随笔记录——不同模态信号、表征与应用

​​​​​​​

  • CoOp(Prompt-tuning):
  • ​​​​​​​引入可训练的Context或Prompt,通过Few-shot learning微调Prompt,获得更好的文本表征以适应下游任务;

随笔记录——不同模态信号、表征与应用
  • CLIP-adapter:
  • 在CLIP的Image encoder或Text encoder中引入随机初始化的Adapter(轻量的Bottleneck模块),通过Few-shot learning更新适配器、以更好的适配下游任务;并通过残差结构融合CLIP原知识与适配知识,以减轻少样本训练的过拟合;

随笔记录——不同模态信号、表征与应用

Original: https://blog.csdn.net/nature553863/article/details/122651016
Author: Law-Yao
Title: 随笔记录——不同模态信号、表征与应用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/515109/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球