自监督论文阅读笔记 Self-EMD: Self-Supervised Object Detection without ImageNet

2023年7月10日上午8:40 • 人工智能 • 阅读 59

提出了一种新的自我监督表示学习方法 Self-EMD，用于目标检测。Self-EMD直接在 COCO 等未标记的非标志性图像数据集上进行训练，而不是像 ImageNet 这样常用的标志性目标图像数据集。Self-EMD将卷积特征图作为图像嵌入来 保留空间结构，并采用 EMD来计算两个嵌入之间的相似性。受益于更多未标记数据的优点。

自监督学习流程的潜在先验是同一图像的不同视图/裁剪对应于同一对象。因此 最大化他们的一致性 可以学习有用的特征。这个关键的先验实际上高度依赖于预训练数据集的 潜在偏差：ImageNet 是一个以对象为中心的数据集，可确保潜在先验。

· ImageNet：由于图像被预先裁剪为以对象为中心，因此同一图像的不同裁剪来自同一对象。

· COCO：每张图像都包含多个对象，不同的裁剪可能对应不同的对象。这种不一致的噪音可能会损害自我监督学习方法的有效性。

从实例级分类任务中学习到的独特表示可能不适合对象检测。由于它应用全局池化层来生成向量嵌入，它可能会 破坏图像空间结构 并 丢失局部信息，而检测器需要对空间定位敏感。

本文没有使用全局池化，而是将卷积特征图作为图像嵌入，保留局部和空间信息。

离散的EMD：理想度量应该在没有对应监督的情况下选取局部块之间的最佳匹配，并最小化来自不相关区域的噪声。EMD 是用于计算结构表示之间距离的度量。

由于标记检测数据的开销远高于分类，因此对大规模标记数据的依赖仍然限制了现代目标检测器的应用。

对比学习依靠噪声对比估计来比较实例。

· MoCo [10, 4] 通过存储来自动量编码器而不是经过训练的网络的表示来改进对比方法的训练；

· SimCLR [3] 表明，如果批次足够大，可以用同一批次的元素完全替换内存库；

· BYOL [9] 和 SwAV [2] 避免比较每对图像，尤其是对于负对图像。 BYOL 通过吸引来自同一实例的不同特征直接引导表示，而SwAV将图像特征映射到一组可训练的原型向量。

实例级分类的成功实际上依赖于 ImageNet 的潜在偏差：每张图像都以对象为中心，以确保同一图像的不同视图和裁剪对应于同一对象。如果我们考虑到 收集和清理数据 的额外工作，那么自我监督的”预训练”步骤实际上仍然 不是免费的。

在本文中，我们精心设计了 Self-EMD 的组件， 首次成功地将 EMD 应用于自监督学习。

跨视图框架依赖于 ImageNet 中以目标为中心的偏差，以确保不同的视图对应于同一个目标。

BYOL 的跨视图框架假设两个不同的视图来自同一个对象，但这种偏差仅在以对象为中心的图像上得到保证。在对未标记的 多对象图像 进行训练时，来自多对象的噪声可能会阻碍学习过程，导致检测微调任务的性能较差。此外，BYOL 和其他自监督学习方法采用 全局池化层 来生成向量嵌入，这 破坏了空间结构和局部信息。

本文 用卷积层替换 MLP 头 以保留空间特征图。使用EMD自动找到对应的映射，然后计算距离。

监督学习方法和目标检测之间的另一个差距是关于尺度不变性，因为 目标检测不仅涉及分类，还涉及定位，其中不同尺度的目标的威胁尤为明显。尺度不变性已在通用监督检测器中得到广泛探索，而在自监督学习中基本保持不变。事实上，像 BYOL 这样的自监督方法通过不同视图之间的随机尺度变换，在某种程度上隐含地学习了尺度不变的表示。

监督目标检测中一种常见的实际训练技巧是多尺度训练，其中将输入图像调整为多尺度并分别修改注释。然而，在自监督任务中，我们 没有标签来适应训练的一致性。

Spatial Pyramid Cropping 空间金字塔裁剪 SPC for EMD ：该操作使得局部特征的比较可以跨越两种不同crops的不同尺度，增强学习到的局部表示中的 尺度信息。

网络架构：在两个编码器中使用标准的 ResNet-50 作为我们的基础骨干网。去掉全局池化层，用 1×1卷积层代替MLP head中的线性层。为了计算 Eq 13中的边际权重，我们仍然将原始 MLP 头部作为 并行分支 来生成向量特征。

杂乱的噪声确实是自监督训练的一个问题。

单阶段检测器 RetinaNet 的改进最为显着。一个可能的原因是，对于单级检测器，局部特征表示更为重要，因为预测直接来自主干的卷积特征图。换句话说，由于 EMD 策略在预训练过程中保留了空间结构和局部信息，因此学习的表示更适合密集预测。

EMD 的工作机制高度依赖于卷积特征图具有 信息语义意义 的前提条件。尽管在有监督的训练下自然会满足这样的条件，但在训练没有标签的网络时却很重要。还强调了在将 EMD 度量应用于自监督学习时marginal weights 边际权重的重要性。

但这种一致的增益表明了 尺度不变性 在目标检测中的重要性。

在 COCO 上进行预训练时，我们提出的方法在更大程度上优于其他自监督方法。潜在的原因是，对于 SimCLR 和 MoCov2，它们在对比学习方式中需要额外的负样本，这可能会加剧对以目标为中心的偏差的依赖。

与监督检测预训练相比，所有自监督方法都存在显着差距。这一结果表明，目前的自监督方法的好处是有限的。设计一个更好的自监督训练框架仍然是目标检测预训练的一个悬而未决的问题。

Self-EMD可以有效地 建立两个crop之间的语义对应 ，crop 1中的背景或crop 2 中的不相关区域被分配了较小的权重，从而 减轻了 训练期间的 杂乱噪声。

Conclusion：Self-EMD 将卷积特征图作为图像嵌入，然后使用离散的 Emd 来测量空间相似性。即使没有 ImageNet 数据集，Self-EMD 也能取得领先的结果。这使我们能够在未来利用更多未标记的数据。

Original: https://blog.csdn.net/YoooooL_/article/details/124571962
Author: YoooooL_
Title: 自监督论文阅读笔记 Self-EMD: Self-Supervised Object Detection without ImageNet

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682443/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【论文阅读】强化学习与知识图谱关系路径发现

论文标题：DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 中文标题：深度路径：知识图…

人工智能 2023年6月1日
0073
【机器学习】朴素贝叶斯

算法介绍朴素贝叶斯算法是有监督的学习，目的是解决分类问题。朴素贝叶斯的优点是简单易懂，学习效率高，在数据较少的情况下仍然有效，可以处理多类别问题学习理解用p1(x,y)表示数…

人工智能 2023年7月2日
0081
openEuler上部署Tensorflow

openEuler上部署Tensorflow 今天给大家带来如何在openEuler上部署Tensorflow 这次部署Tensorflow框架，我们通过安装anaconda后在进…

人工智能 2023年5月26日
0084
如何使用批量标准化（batc

问题背景批量标准化（Batch Normalization）是一种常用的深度学习中的技术，用于加速神经网络的训练过程。在神经网络的训练中，随着层数的增加，每一层的输入分布会发生变…

人工智能 2024年1月1日
0043
PyTorch版本更新后无法调用GPU显卡的原因及解决办法

Index 目录索引问题剖析解决方法参考问题剖析使用 PyTorch在网络模型训练过程中，如果更新了 PyTorch的版本（例如由 1.7.0更新为 1.8.1），则可能…

人工智能 2023年7月21日
0053
对神经网络分类行为的认识二则

分类与自旋 “每一种粒子都具有一个固定的自旋值,永远不变,粒子从来不存在开始转得更快或更慢;以ћ作为度量单位, 宇宙中每个光子的自旋等于每个希格斯玻色子的自旋等于零;自…

人工智能 2023年7月14日
0063
多层感知机MLP的理解及代码实现

1、MLP模型多层感知机（MLP，Multilayer Perceptron）也叫人工神经网络（ANN，Artificial Neural Network），除了输入输出层，它中…

人工智能 2023年6月13日
0066
回归预测 | MATLAB实现CNN-BiLSTM(卷积双向长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现CNN-BiLSTM(卷积双向长短期记忆神经网络)多输入单输出目录 * – 回归预测 | MATLAB实现CNN-BiLSTM(卷积双向…

人工智能 2023年7月13日
0073
RNA 13. SCI 文章中加权基因共表达网络分析之 WGCNA

WGCNA 分析流程 2008 年发表在 BMC 之后的影响力还是很高的，先后在各大期刊都能看到，但是就其分析的过程来看，还是需要有一定 R 语言的基础才能完整的复现出来文章中的结…

人工智能 2023年7月18日
0059
跟着官方文档学DGL框架第九天——训练图神经网络之边分类/回归

参考链接回归问题与分类问题只是损失函数上的不同，模型和流程都是一样的。而获得边的预测值或者类别，可以通过融合端点的表示和边自身的表示来获得（在本节中没用上边的特征）。同构图上的…

人工智能 2023年6月18日
00100
计算机视觉中的编码-解码器结构总结（持续更新）

文章目录 NLP领域的编码解码器结构机器学习中的编码器 * 自动编码器视觉领域中的编码解码器结构编码器-解码器结构：编码器原始输入信号转化为中间格式，然后解码器将中间格式转化…

人工智能 2023年7月27日
0094
ospf多区域原理和配置

好的，下面是在 Ensp 中配置 OSPF 多区域_的实验步骤： 1. _网络_拓扑： +———–+ +———–+ | R1 | | R2 | | …

人工智能 2023年6月29日
0067
在go中使用opencv

在go中使用opencv还是比较麻烦的，如果使用的是 mac 或 linux 还好，在windows下就比较痛苦。 GoCV 包提供了对 opencv 4.5.4 的支持，官方提供…

人工智能 2023年7月19日
0076
week5 Bag of Visual Words (Bag of Features)

Bag of Visual Words (Bag of Features) 采用k -means 聚类方法对所提取的大量特征进行无监督聚类，将具有相似性较强的特征归入到一个聚类类别…

人工智能 2023年6月3日
0078
机器学习中的回归是什么意思？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0085
(三)pytorch中损失函数

损失函数可以分为三类：回归损失函数、分类损失函数和排序损失函数 1、L1 loss 计算实际值和预测值之间的绝对值之和的平均值。 y表示标签，pred表示预测值。（回归问题），当目…

人工智能 2023年7月22日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自监督论文阅读笔记 Self-EMD: Self-Supervised Object Detection without ImageNet

大家都在看