对比学习系列（五）—SimSiam

2023年6月15日上午1:48 • 人工智能 • 阅读 63

SimSiam

孪生网络已经成为无监督视觉表征学习的一种常见结构。孪生网络最大化一个图像的两个增广之间的相似性。论文提出了一个简单的孪生网络（SimSiam）在 不需要负样本对、大的批次和动量编码的情况下学习表征。

对比学习的核心思想是吸引正样本对，排斥负样本对。对比学习在无监督（自监督）表征学习中广泛应用。基于孪生网络的简单高效的对比学习实例方法已经被开发出来。实际上，对比学习方法从大量的负样本的获益，InfoDist方法使用一个memory bank存放负样本对；基于孪生网络，MoCo维持一负样本对队列并且将一个分支作为动量编码器来提高队列的一致性；SimCLR直接使用当前批次中共存的负样本，所以它需要一个大的batch size。BYOL不使用负样本对，它从图像的一个视图直接预测另一个视图的输出。BYOL本质上也是一个孪生网络，它的一个分支是一个动量编码器。BYOL的动量编码器防止模型坍塌。

论文发现 stop-gradient操作是防止模型坍塌的关键，SimSiam算法在不使用负样本，也不需要动量编码器的情况下，直接最大化一张图片的两个视图的相似性。而且它不需要一个大的batch size去训练。SimSiam算法可以近似看做”不需要动量编码器的BYOL”。

对于一个图像x x x，以它的两个随机增广视图x 1 x_{1}x 1 和x 2 x_{2}x 2 为输入，这两个视图经过一个编码网络f f f，编码网络包含一个backbone和一个projection MLPhead层。编码器f f f在这两个视图之间共享参数。一个预测MLP head，记为h h h，转换其中一个视图的输出并和另一个视图进行匹配。这两个输出向量记为p 1 = h ( f ( x 1 ) ) p_{1} = h\left( f\left( x_{1}\right) \right)p 1 =h (f (x 1 ))和z 2 = f ( x 2 ) z_{2} = f \left( x_{2} \right)z 2 =f (x 2 )，然后最小化它们的余弦相似度的负值。
D ( p 1 , z 2 ) = − p 1 ∥ p 1 ∥ 2 ⋅ z 2 ∥ z 2 ∥ 2 D\left( p_{1}, z_{2} \right) = – \frac{p_{1}}{\| p_{1} \|{2}} \cdot \frac{z{2}}{\|z_{2}\|{2}}D (p 1 ,z 2 )=−∥p 1 ∥2 p 1 ⋅∥z 2 ∥2 z 2
定义一个对称的loss，如下所示：
L = 1 2 D ( p 1 , z 2 ) + 1 2 D ( p 2 , z 1 ) L = \frac{1}{2} D\left( p{1}, z_{2} \right) + \frac{1}{2} D\left( p_{2}, z_{1}\right)L =2 1 D (p 1 ,z 2 )+2 1 D (p 2 ,z 1 )
这是每个图像的对称损失，总的损失函数是所有图像的对称损失的平均值。它的最小值是− 1 -1 −1。SimSiam算法的一个重要实现是stop-gradient操作，那么对称损失函数将变换如下所示。
L = 1 2 D ( p 1 , s t o p g r a d ( z 2 ) ) + 1 2 D ( p 2 , s t o p g r a d ( z 1 ) ) L = \frac{1}{2} D\left( p_{1}, stopgrad\left( z_{2} \right) \right) + \frac{1}{2} D\left( p_{2}, stopgrad\left( z_{1}\right) \right)L =2 1 D (p 1 ,s t o p g r a d (z 2 ))+2 1 D (p 2 ,s t o p g r a d (z 1 ))
其中D ( p 1 , s t o p g r a d ( z 2 ) ) D\left( p_{1}, stopgrad\left( z_{2} \right) \right)D (p 1 ,s t o p g r a d (z 2 ))意味着z 2 z_{2}z 2 是一个常数。simSiam的伪代码如下所示。

基础实现：

优化器：优化器使用SGD。基础学习率l r = 0.05 lr=0.05 l r =0.05，学习率为l r × B a t c h S i z e / 256 lr \times BatchSize / 256 l r ×B a t c h S i ze /256。学习率遵循余弦衰减时间表。weight decay为0.0001，SGD的动量为0.9，batch size为512。
projection MLP：projection MLP有3层，每层fc有2048维。每一全连接层都包含BN，包括输出全连接层。输出全连接层中不包含ReLU。
prediction MLP：prediction MLP有两层，隐含层中有BN操作，输出层中没有BN和ReLU。h h h的输入和输出维度都是2048，h h h的隐藏层维度为512。2048–>512–>2048
backbone：ResNet-50

class SimSiam(nn.Module):
"""
    Build a SimSiam model.

"""
    def __init__(self, base_encoder, dim=2048, pred_dim=512):
"""
        dim: feature dimension (default: 2048)
        pred_dim: hidden dimension of the predictor (default: 512)
"""
        super(SimSiam, self).__init__()

        self.encoder = base_encoder(num_classes=dim, zero_init_residual=True)

        prev_dim = self.encoder.fc.weight.shape[1]
        self.encoder.fc = nn.Sequential(nn.Linear(prev_dim, prev_dim, bias=False),
                                        nn.BatchNorm1d(prev_dim),
                                        nn.ReLU(inplace=True),
                                        nn.Linear(prev_dim, prev_dim, bias=False),
                                        nn.BatchNorm1d(prev_dim),
                                        nn.ReLU(inplace=True), 第二层 conv-BN-ReLU
                                        self.encoder.fc,
                                        nn.BatchNorm1d(dim, affine=False))
        self.encoder.fc[6].bias.requires_grad = False

        self.predictor = nn.Sequential(nn.Linear(dim, pred_dim, bias=False),
                                        nn.BatchNorm1d(pred_dim),
                                        nn.ReLU(inplace=True),
                                        nn.Linear(pred_dim, dim))

    def forward(self, x1, x2):
"""
        Input:
            x1: first views of images
            x2: second views of images
        Output:
            p1, p2, z1, z2: predictors and targets of the network
            See Sec. 3 of https://arxiv.org/abs/2011.10566 for detailed notations
"""

        z1 = self.encoder(x1)
        z2 = self.encoder(x2)

        p1 = self.predictor(z1)
        p2 = self.predictor(z2)

        return p1, p2, z1.detach(), z2.detach()

criterion = nn.CosineSimilarity(dim=1).cuda(args.gpu)

p1, p2, z1, z2 = model(x1=images[0], x2=images[1])
loss = -(criterion(p1, z2).mean() + criterion(p2, z1).mean()) * 0.5

下图是”witd vs witdout stop-gradient”单一变量实验结果比较。左图是训练损失，witdout stop-gradient，优化器快速找到一个退化解，并且达到最小损失值− 1 -1 −1。为了显示这个退化解是由模型坍塌导致的，作者研究了l 2 l_{2}l 2 正则化输出z / ∥ z ∥ 2 z / \| z \|_{2}z /∥z ∥2 的标准差std。如果输出坍塌为一个常数向量，那么它们在所有例子上的std对于每一个通道应当是0，中间图的红色曲线验证了这一点。如果输出z z z具有零均值各向同性高斯分布，那么的标准差为1 d \frac{1}{\sqrt{d}}d 1 ，中间图的蓝色曲线显示在带有stop-gradient的情况下，它的标准差接近于1 d \frac{1}{\sqrt{d}}d 1 。

总结

linear classification protocol的原则是：在1N-1M数据集上预训练之后，冻结特征层，然后训练一个线性分类器，线性分类器由一个全连接层和一个softmax层组成。下面展示各自监督算法的线性分类结果。

metdodarchitecture#params(M)top 1top 5batch size epochesMoCoResNet-5024M60.6-256200SimCLRResNet-5024M69.389.040961000MoCo v2ResNet-50-71.1-256800BYOLResNet-5024M74.391.640961000SimSiamResNet-50-71.3-256800MoCo v3ResNet-50-73.8-4096800MoCo v3ViT-B86M76.7-4096300

Original: https://blog.csdn.net/weixin_42111770/article/details/123723652
Author: 陶将
Title: 对比学习系列（五）—SimSiam

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613396/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文精读清华ERNIE：Enhanced Language Representation with Informative Entities

ERNIE原论文 ; 背景在大规模语料库上预训练的BERT等语言表示模型可以很好地从纯文本中捕获丰富的语义模式，并进行微调以提高各种 NLP 任务的性能。然而，现有的预训练语言模…

人工智能 2023年6月1日
0064
04.多元梯度下降算法

一、多元梯度下降算法通常情况下我们要解决的问题会涉及到多个变量，例如房屋价格预测应该考虑面积、房间个数、楼层、价格等多个因素，这时就需要使用多元线性回归的假设函数和多元梯度下降算…

人工智能 2023年6月17日
0060
使用卷积神经网络和 Python 进行图像分类

介绍本文将讨论有关图像分类的所有内容。在过去的几年里，深度学习已经被证明是一个非常强大的工具，因为它能够处理大量的数据。隐藏层的使用超越了传统技术，尤其是在模式识别方面。最受欢…

人工智能 2023年5月26日
0073
ONNXRUNTIME_EXCEPTION : Non-zero status code returned while running Where node. Name:‘Where‘

遇到此类错误，如： onnxruntime.capi.onnxruntime_pybind11_state.InvalidArgument: [ONNXRuntimeError] …

人工智能 2023年7月13日
0047
OpenCV、EmguCV和OpenCvSharp指针访问图像像素值耗时测评(附源码)

背景介绍 EmguCV和OpenCvSharp都是OpenCV在.Net下的封装，常常会听到有人说EmguCV或OpenCvSharp同样的函数比OpenCV函数运行速度慢，到底是…

人工智能 2023年6月20日
0088
模型是如何进行训练的

问题：模型是如何进行训练的？在机器学习中，模型的训练是一个非常关键的过程。通过合理的训练过程，模型可以从数据中学习到相关的模式和规律，并用于预测和分类任务等。本文将详细介绍模型的…

人工智能 2024年1月4日
0062
机器学习中的训练集、验证集、测试集；交叉验证方法

@创建于：20210826@修改于：20210826 文章目录 * – 1、数据集类型 – + 1.1 训练集 + 1.2 验证集 + 1.3 测试集 + …

人工智能 2023年5月27日
0078
数据分析师的职业发展

作者介绍 @小宇专注流量数据分析，就职过360和58。 “数据人创作者联盟”成员 00 导语最近常常看到关于数据分析师职业发展瓶颈的讨论，观点不一，众说…

人工智能 2023年6月11日
0078
Geoda进行莫兰指数（Moran‘s I指数）相关

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0063
双目视觉目标追踪及三维坐标获取—python（代码）

2022年九月更新：在原来的基础上，我使用了yolov5代替了opencv的目标检测算法辅助相机进行三维坐标的获取，并成功用获取的坐标实时控制机械臂，感兴趣的话可以看我b站里的视…

人工智能 2023年7月3日
0065
VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文笔记

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文笔记论文背景介绍 *…

人工智能 2023年5月30日
0082
中的卷积操作是如何实现的

卷积操作的详细解释与实现在深度学习中，卷积操作是一种非常重要的运算，特别是在图像处理和计算机视觉领域。这一操作可以有效地提取图像的特征并用于分类、目标检测、图像生成等任务。本文将…

人工智能 2023年12月31日
0042
AVM 环视拼接方法介绍

简介关于车辆的全景环视系统网上已经有很多的资料，然而几乎没有可供参考的代码，这一点对入门的新人来说非常不友好。全景环视系统，又称AVM。在自动驾驶领域，AVM属于自动泊车系统的一…

人工智能 2023年6月25日
0087
python error tokenizing data_python 问题杂烩

python 问题杂烩 python problem cookbook ParserError: Error tokenizing data. C error: Calling r…

人工智能 2023年7月8日
0076
【Deep-sort多目标跟踪流程及其改进方法的解读】

【Deep-sort多目标跟踪流程及其改进方法的解读】文前白话 * 相关的文章、资源链接流程及其改进方法的梳理 – 一、多目标跟踪的流程二、Sort 与 deep…

人工智能 2023年5月26日
0074
Carsim与MATLAB联合仿真以及Carsim的一些操作

操作流程 1. 设置MATLAB的工作路径为Carsim的数据库路径 ; 2. 在Matlab中设置路径，安装路径和数据库路径都要添加到子文件夹 3.Model选择simulink…

人工智能 2023年6月10日
00123

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

对比学习系列（五）—SimSiam

总结

大家都在看