【论文阅读】CLIP：Learning Transferable Visual Models From Natural Language Supervision —— 多模态，视觉，预训练模型

2023年5月27日下午8:35 • 人工智能 • 阅读 72

讲解CLIP的文章和博客已经非常多了，因此本博客不再逐字逐句解释或者翻译本文的内容，而是主要记录一些关键点，包括博主在初次阅读这篇文章时所遇到的问题，以及难以理解透彻的地方。故本博客以问答形式展开。

零、题目解读

Transferable Visual model指不使用特定数据集的数据训练模型，但是得到的模型却可以在多个不同的特定数据集上表现出良好的性能，该模型具有Transferable的性质。

From natural language supervision指从语言文本中提取有效的信息，辅助CV模型的构建和训练。

一、本文主要的贡献，也就是CLIP，是什么？

答：CLIP是一个预训练模型，就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型，然后训练好的模型就能实现，输入一段文本（或者一张图像），输出文本（图像）的向量表示。CLIP和BERT、GPT、ViT的区别在于，CLIP是多模态的，包含图像处理以及文本处理两个方面内容，而BERT、GPT是单文本模态的，ViT是单图像模态的。

二、作者提出CLIP的动机？

答：1.现有CV模型大多都只能预测已知的图像类别，对于没有见过的图像类别，需要额外的信息才能识别。那么文本其实就提供了这样的额外信息。所以利用图像对应的文本数据，也许就能使模型能够分辨未见类的图像。

2.最近NLP领域中出现的BERT、GPT等预训练模型表明，用大规模的无监督数据训练模型，可以在多个下游NLP任务上获得非常好的结果，有些甚至超过使用人工标注的数据训练出的模型。而现有的CV模型基本都是基于人工标注的数据集训练的（比如ImageNet），那么仿照NLP中预训练模型，如果使用大量无监督（也就是非人工标注）的图像，CV模型能否实现突破呢？

3.目前也有很多研究者注意到natural language在CV中的作用，并尝试利用起来。但是实际的实验结果通常低于其他特殊设计的使用有监督数据的模型。但是作者认为，他们在CV模型中加入natural language数据后实际结果不够好的原因可能是数据规模仍然不够大，而不是natural language数据对CV无用。

三、CLIP的预训练数据是什么？

答：预训练数据是作者新构建的WIT数据集。鉴于现有CV数据集仍然不够大，且很少包含足够的natural language数据（大多CV数据集中的文本数据只是图像的类别指示，比如dog，cat等单词），所以作者从网上爬了4亿个图像-文本对，构建了数据集WIT（WebImageText）。WIT数据集中的文本都是图像相关的sentence，而不是single word，因此提供了足够的natural language数据。

四、CLIP的预训练任务是什么？

答：CLIP的预训练任务是预测给定的图像和文本是否是一对（paired），使用对比学习（contrastive learning）的loss。

我们知道，为了能够充分利用大量的无监督数据，预训练任务一般都是自监督的，比如BERT的预训练任务是masked language model（MLM）和next sentence prediction（NSP）。VirTex的预训练任务是预测图像的caption。按照这种思路，本文先尝试将预测图像的caption（也就是WIT数据集中图像对应的text sentence）作为预训练任务，如下图中蓝色线条预测text中的一个个words，结果甚至不如简单的直接预测text的bag-of-words encoding来得又快又好（如下图中橙色线条）。但是作者认为，上述两种方法都是预测文本的exact words，这样显然是很难的，因为文本表达具有丰富性和多样性，同一张图像能够有非常多不同的与之对应的合理表述文本。

所以本文采取了对比学习的方法来预训练CLIP。直接将image对应的text sentence作为一个整体，来判断text和image是否是一对。对于一个包含N个图像-文本对的batch而言，其中正样本是每张图像及其对应的文本，一共有N个，而其他所有图像和文本的组合都是不成对的，也就是负样本是N×N-N个。实验发现该方法在效果和性能上都很好，如下图绿色线条。

【论文阅读】CLIP：Learning Transferable Visual Models From Natural Language Supervision ------ 多模态，视觉，预训练模型

五、CLIP的结构？

答：如下图所示，CLIP的主要结构是一个文本编码器Text Encoder和一个图像编码器Image Encoder，然后计算文本向量和图像向量的相似度以预测它们是否为一对。

下图是CLIP实现的伪代码。CLIP将图像和文本先分别输入一个图像编码器image_encoder和一个文本编码器text_encoder，得到图像和文本的向量表示 I-f 和 T_f 。然后将图像和文本的向量表示映射到一个joint multimodal sapce，得到新的可直接进行比较的图像和文本的向量表示 I_e 和T_e （这是多模态学习中常用的一种方法，不同模态的数据表示之间可能存在gap，无法进行直接的比较，因此先将不同模态的数据映射到同一个多模态空间，有利于后续的相似度计算等操作）。然后计算图像向量和文本向量之间的cosine相似度。最后，对比学习的目标函数就是让正样本对的相似度较高，负样本对的相似度较低。

经过上述训练过程，CLIP实际上得到了两个训练好的文本编码器和图像编码器，后续的工作就围绕这两个编码器展开。

作者在本文中实验了5种ResNet模型和3种Visual Transformer模型作为图像编码器，文本编码器则用了Transformer。经过实验发现，这些不同的图像编码器中效果最好的是ViT-L/14@336px。

六、文中多次提到的Zero shot transfer of CLIP 是什么意思？

答：本文的CLIP预训练时使用的数据集是WIT，而在ImageNet、STL10、Food101、CIFAR10、MNIST等其他数据集上直接测试。这意味着CLIP在训练时没有见过ImageNet这些数据集中的图像，那么这种测试实际上就是zero shot的。

一个测试例子可以看下图，假设要测试的数据集是ImageNet，那么，因为CLIP在训练时用的所有数据来自WIT，而没有任何ImageNet的数据，所以CLIP在ImageNet上进行测试实际上就是Zero shot的。由于ImageNet中text数据只有表示图像类别的car，dog，bird等single word，而CLIP训练时text数据是sentence，为了弥补训练和测试的gap，作者将ImageNet中所有类别单词扩展为一句话” A photo of a {car/dog/…/bird}. ” ，作为图像对应的sentence（该操作实际上是prompt engineering）。

下图中Text Encoder和Image Encoder是已经训练好的CLIP中的文本和图像编码器，要对任意一张来自ImageNet的图像进行分类，只需要将该图像输入Image Encoder中得到它的向量表示I1。然后将ImageNet数据集中所有类别标签扩展成的sentence输入Text Encoder，得到所有类别的向量表示T1—TN，然后计算I1与T1—TN的相似度，其中相似度最高的就是该图像对应的text数据，也就是该图像的分类结果。

七、其他问题有待补充

继续研读CLIP中，如有新问题，随之更新。。。

Original: https://blog.csdn.net/me_yundou/article/details/123033447
Author: me_yundou
Title: 【论文阅读】CLIP：Learning Transferable Visual Models From Natural Language Supervision —— 多模态，视觉，预训练模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527621/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python 把几个DataFrame合并成一个DataFrame——merge,append,join,conca

pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False,…

人工智能 2023年6月2日
0071
到底什么是自动化优先思维?与RPA有什么关系?

基于RPA的自动化优先，正在成为广大组织的主流管理思维到底什么是自动化优先思维?与RPA有什么关系? 如何用RPA简单快速的打造一个自动化优先的组织? 文/王吉伟在IT运维项目…

人工智能 2023年6月4日
0087
【目标检测】(13) 先验框解码，调整预测框，附TensorFlow完整代码

各位同学好，今天和大家分享一下如何使用 TensorFlow对 YOLOV3 和 YOLOV4 网络的输出特征进行解码，微调每个先验框的坐标和宽高，使其逼近真实标签框。 YOLO…

人工智能 2023年5月25日
0090
用傅里叶变换到频域进行低通滤波（理想，指数，巴特沃斯，梯形）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月20日
0083
YOLOP 训练+测试+模型评估

文章目录前言一、环境搭建二、测试三、训练 * 3.1 下载数据集 3.2 在./lib/config/default.py中修改相关参数四、模型评估五、可能遇到的报错 …

人工智能 2023年6月16日
00225
ffmpeg深入理解H264中的时间戳( DTS和PTS)

文章目录一、视频的播放过程？二、I、P、B 帧的区别三、DTS、PTS 的概念四、PTS和DTS的时间基 * PST和DTS的单位是什么? 五、FFMPEG的AVRatio…

人工智能 2023年5月26日
0057
使用YOLOv7进行Transformer检测模型的TensorRT部署

最近有大佬开源了YOLOv7, 大概看了一眼，支持DETR等模型的ONNX导出，并且可以进行tensorrt推理。但是原作者并没有开源对应的权重，也没有开源onnx推理的脚本。本…

人工智能 2023年6月15日
0080
CUDA学习笔记（对图像进行并行加速运算）

在对CUDA的kernel函数有了一定了解之后，就可以对图像进行多线程加速计算，下面是我在CPU和GPU上各自遍历一张图像，对比两者的性能差异。这里需要用到opencv的函数读取图…

人工智能 2023年5月28日
0065
关于图像预处理和halcon-OCR训练与识别经验分享

halcon-OCR 训练与识别小经验。 halcon的OCR训练与识别主要的算子就只有几个，但是在做的过程还是会遇到一些问题，刚好最近学习这个，在阅读了大量的经验贴和看了许多的视…

人工智能 2023年6月22日
0080
VisionTransformer（三）BIT—— 基于孪生网络的变化检测结构分析

基于孪生网络的变化检测结构分析目录基于孪生网络的变化检测结构分析前言一、孪生网络Siamese Network 二、BIT（Bitemporal Image Transfo…

人工智能 2023年6月25日
0096
FPGA设计的10点小知识

文章目录概述 1、数字系统101 2、时钟 3、好的状态机设计 Moore状态机/Mealy状态机有什么问题？格雷码不能解决问题吗？一个更好的状态机设计 4、同步输入和状态机…

人工智能 2023年7月10日
0062
训练时，训练误差、精度，和验证误差、精度，都保持不变，是个固定值（难受），这是为啥呢？

使用 TensorFlow with Keras，按照《Python 深度学习》（《Deep Learning with Python》）文本和序列处理那章，使用一维卷积Conv1…

人工智能 2023年5月26日
00179
软件测试最最最重要的事

软件测试用例得出软件测试用例的内容，其次，按照软件测试写作方法，落实到文档中，两者是形式和内容的关系，好的测试用例不仅方便自己和别人查看，而且能帮助设计的时候考虑的更周。一个好的…

人工智能 2023年6月26日
0079
NNDL 实验五前馈神经网络（3）鸢尾花分类

* – 深入研究鸢尾花数据集 – 4.5 实践：基于前馈神经网络完成鸢尾花分类 – + 4.5.1 小批量梯度下降法 + * 4.5.1.1 数…

人工智能 2023年7月1日
0077
深度学习100例-循环神经网络（LSTM）实现股票预测 | 第10天

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月16日
0072
卷积网络识别猴痘

目录 1.跑通代码 2.代码分析 2.1 2.2 2.3 2.4 2.5 2.6 3.总结 🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍦 参考文章地址： 🔗深度学习10…

人工智能 2023年5月25日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31