随笔记录——不同模态信号、表征与应用

2023年5月25日下午4:49 • 人工智能 • 阅读 108

基本概述

深度学习模型（主要是感知类模型）接受的输入信号，主要包括图像、文本、语音等信号。不同模态的输入信号，经过模型的逐层抽象、转换之后，转变为不同程度的抽象表示（如语义、表征、编码知识等），并应用于不同的任务场景。

如上图所示，深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段，不同阶段的输入/输出具备不同的含义，简述如下（图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例）：

输入信号：模型接收的输入信号，是原始的、或仅初步加工的数据（raw data），包括自然信号（图像、语音）与人工信号（文本）； 自然信号通常包含噪声、且信息冗余度较高，需要利用 全局/局部相关性实现去冗余； 人工信号是人工定义的包含一定语义的符号，通常需要 结合Context（语境）以预测其确切的语义表达，而且含糊不清的表述容易产生歧义；
前处理：对于 自然信号，典型如标准化、降噪滤波、信号域变换（如时域转频域）、降采样等信号预处理；对于 人工信号，典型如文本信号的Tokenizer处理、Embedding查找表等；经前处理之后，信号将转为初步的特征表示，如Normalized image、Acoustic feature、Token embedding等；
浅层处理：图像信号经浅层处理，能获取初步抽象的、细节性的特征（感受野较小），主要成分是低级的、高分辨率的纹理信息； 文本、语音等序列信号经浅层处理，基于Attention机制的Context上下文信息编码，就能转为较高层次的抽象语义、或特征表征；
深层处理：图像信号经过进一步的深层处理，将转为高层次的抽象语义（感受野较大）、或特征表征，有时为了丰富深层特征的细节信息，会采用FPN结构以融合浅层特征； 序列信号的深层次处理可能是冗余的，尤其针对规模较小的下游任务，适当裁剪模型的网络深度、通常也不会影响预测精度，从而起到模型压缩与加速的目的；
任务相关层：基于Backbone（包含了模型的浅层与深层）输出的抽象语义或特征表征，完成分类、回归等具体任务。基于视觉任务， 举例如下：
Semantic-level：分类任务，依赖全局语义的完美表示，如ImageNet图像分类；特征匹配，依赖模型的特征表征能力（即包含语义、又不失细节，方显完美），如人脸识别、商品检索、矢量召回等；
Instance-level：目标检测，依赖实例目标的语义表示、以及位置相关的纹理细节信息； 浅层特征由于感受野较小、富含纹理，适合小目标检测； 深层特征由于感受野较大、富含语义，适合大目标检测，当目标尺度接近原图范围时，则近似于图像分类；
Pixel-level：语义/实例分割，依赖实例的语义表征、纹理信息；Low-level图像任务（如图像增强、超分、插帧等），主要依赖图像的纹理信息、局部语义；
后处理：完成预测信息的精细化加工，并应用于具体的任务场景；

基于大规模数据集的预训练方法（如监督学习、自监督学习、对比学习等），能够有效确保Backbone的语义抽象、特征表征与实例鉴别能力。

除了对单一模态信号处理、加工的应用范式，也存在如CLIP、M6、Switch Transformer等 多模态大模型，能实现多模特特征表征、内容理解、跨模态内容生成等任务。在具体的下游应用场景，大模型的压缩与知识蒸馏，是确保应用部署与泛化迁移的基础。

M6大模型的平台化应用，参考官网介绍：

大数据和AI案例体验馆

Bert/Transformer模型压缩与优化加速，参考如下讨论：

Bert/Transformer模型压缩与优化加速_AI Flash-CSDN博客_transformer模型加速

CLIP系列

简单介绍CLIP（图像文本双模态预训练模型）、以及视觉语言应用情况。

CLIP (Contrastive Language Image Pre-training)：
预训练数据集：经由4亿图像文本对的自监督预训练（对比学习），构建了统一的视觉/文本表征空间；
模型结构：包含Image encoder（如ViT、ResNet等）、与Text encoder（如Transformer），分别用以提取视觉特征、与文本特征；视觉特征与文本特征之间，通过dot production计算相似度；
Zero-shot应用：针对特定的下游任务，需人工设计Prompt、并与任务标签文本（如类目文本）相连接，以提取文本特征；典型下游任务如图文搜索、图像描述、图像分类等；CLIP亦可应用于Fine-tuning或Linear probe；

Open Vocabulary Object Detection：
基于CLIP的知识迁移，将目标检测器的特征表征、统一到CLIP表征空间，以增强目标检测器在开放词汇场景的Zero-shot应用能力；

CoOp（Prompt-tuning）：
引入可训练的Context或Prompt，通过Few-shot learning微调Prompt，获得更好的文本表征以适应下游任务；

CLIP-adapter：
在CLIP的Image encoder或Text encoder中引入随机初始化的Adapter（轻量的Bottleneck模块），通过Few-shot learning更新适配器、以更好的适配下游任务；并通过残差结构融合CLIP原知识与适配知识，以减轻少样本训练的过拟合；

Original: https://blog.csdn.net/nature553863/article/details/122651016
Author: Law-Yao
Title: 随笔记录——不同模态信号、表征与应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515109/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

C++-继承-多继承-类型转换-内存结构分析-汇编分析-逆向分析（二）

### 回答1： C++_面向对象中的 _类_的 _继承_与派生是指在一个 _类_的基础上，创建一个新的 _类，新的类_可以 _继承_原有 _类_的属性和方法，并且可以添加新的属…

人工智能 2023年6月28日
0063
2022年度数据库最常用的语言SQL面试题汇总和答案

2022年度数据库最常用的语言SQL面试题汇总和答案1、SQL是什么？SQL 代表结构化查询语言。它是用于维护关系数据库并对数据执行许多不同的数据操作操作的标准语言。 SQL 最…

人工智能 2023年6月28日
0081
pandas10minnutes_中英对照02

本次主要讲以下章节内容：4.Missing data 缺失数据5.Operations 操作6.Merge 合并 4.Missing data 缺失数据 pandas primar…

人工智能 2023年7月16日
0043
Google Earth Engine —— 1986-2020年植被覆盖度一元线性回归分析（黄河流域上游为例）

本教程使用了两种GEE中的算法完成了对一元线性回归的分析，也就是过去几十年间该区域的植被覆盖度是增加还是减少的趋势性分析。本文先将每一年GEE上计算得到的FVC值导入到ASSET…

人工智能 2023年6月29日
0093
利用python库 pandas完成数据分析（持续更新中~）

利用python库 pandas完成数据分析导读 Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也…

人工智能 2023年7月16日
00114
Prophet模型的简介以及案例分析

目录前言一、Prophet安装以及简介二、适用场景三、算法的输入输出四、算法原理五、使用时可以设置的参数六、学习资料参考七、模型应用 * 7-1、股票收盘价格预测 …

人工智能 2023年6月16日
0095
【图像处理：频率域平滑与锐化】理想滤波器，巴特沃思滤波器，高斯滤波器

【频率域平滑、锐化滤波器】理想滤波器，巴特沃思滤波器，高斯滤波器一、背景知识二、理想滤波器原理及实现 * 1.理想低通滤波器 2.理想低通滤波器的实现： 3.理想高通滤波器： …

人工智能 2023年6月18日
0084
APU工业控制领域应用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 APU在工业控制领域的应用前言一、应用领域分析二、工业控制场景概述 * 三、典型APU厂商【1】AMD 【…

人工智能 2023年7月10日
0041
数学建模国赛题型和获奖策略

数学建模题目可以分为四类：1.评价类问题2.运筹优化类问题3.预测类问题4.机理分析类问题（人口模型/物理学/微分方程等）国赛中，优化类问题是一定会出。然后是评价类也是一定会出。…

人工智能 2023年6月16日
0090
机器学习之自然语言处理——中文分词jieba库详解（代码+原理）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0064
使用Pytorch中的Dataset类构建数据集的方法及其底层逻辑

1 前言我们在用Pytorch开发项目的时候，常常将项目代码分为数据处理模块、模型构建模块与训练控制模块。数据处理模块的主要任务是构建数据集。为方便深度学习项目构建数据集，Pyt…

人工智能 2023年5月26日
0067
机器学习中的数学——激活函数（二）：双曲正切函数（Tanh函数）

分类目录：《机器学习中的数学》总目录相关文章：· 激活函数：基础知识· 激活函数（一）：Sigmoid函数· 激活函数（二）：双曲正切函数（Tanh函数）· 激活函数（三）：线性…

人工智能 2023年6月15日
00108
详解Tensorboard及使用教程

目录一、什么是Tensorboard * 二、配置Tensorboard – 环境要求安装三、Tensorboard的使用 * 使用各种add方法记录数据 &#8…

人工智能 2023年5月23日
00132
遥感影像语义分割论文笔记（一）FarSeg CVPR2020

Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resol…

人工智能 2023年5月26日
0089
Yolov3 模型结构

0. 模型总体结构： Yolov3可以看作有三部分：Darknet53, FPN, Yolo Head. Darknet53是Yolov3的主干网络，用来提取图像特征。共提取了三个…

人工智能 2023年7月27日
0063
【数字图像处理】实验二图像增强（MATLAB实现）

目录一、实验意义及目的二、实验内容三、Matlab 相关函数介绍四、算法原理五、参考代码及扩展代码流程图（1）参考代码流程图（2）扩展代码流程图六、参考代码七、实…

人工智能 2023年6月17日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

随笔记录——不同模态信号、表征与应用

基本概述

CLIP系列

大家都在看