FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding个人理解

2023年7月11日下午10:17 • 人工智能 • 阅读 69

FSOD论文系列02

文章来源
原文思路
个人理解
*
get
Q&A

文章来源

Existing works on few-shot object detection can be categorized into two paradigms: transfer learning and meta-learning. Transfer-learning-based methods include LSTD (Chen et al. 2018), TFA (Wang et al. 2020), MPSR (Wu et al. 2020), and FSCE (Sun et al. 2021), where novel concepts are learned via fine-tuning.

meta-DETR文中的相关文章显示小样本学习分成迁移学习和元学习两个主流方向，FSCE是迁移学习方向的最近一篇代表作。

原文思路

1. 简介
CNN等搭建的深度学习特征检测器需要大量数据训练参数，而当这样的检测器遇到小样本问题就容易出现过拟合的问题。而小样本目标检测的问题要远比小样本图像分类的问题大很多。早期的FSOD使用元学习方法，通过support类和novel类的匹配完成少样本学习。两阶段微调方法（TFA）逐渐展示优势，baseline TFA都是冻结在base上训练好的参数，再在novel data上进行bbox大小、位置的微调，这样基本操作也能使得效果优于之前的meta方法。本文主要解决的是基于微调的方法的弱点——novel类别误分类问题。
很多人会觉得小样本目标检测的难点是定位（将novel类别识别成背景像素），但实际实验结果表明，常用的小样本识别框架 Faster R-CNN+RPN就能够将novel类别精确定位出来，而主要的错误是分类错误。我们基于PASCAL VOC数据集和Faster R-CNN特征提取器的结果进行成对样本的cosine相似度比较，相似的类别之间的cosine相似度值能达到0.39，对比目标和背景的相似度平均也不过0.21。(所以比起区分背景和目标，区分resemble的类别更难)我们在baseline的TFA算法结果进行人工纠正误分类，nAP值能上升20点。
在数据量很小的情况下做分类，一般的基于类别大间距的分类器效果不好。对比学习在识别、分类、自监督模型领域效果都很好。我们的目标是学习一个实例级判别特征表示。我们相信对比学习出来的特征可以兼顾同类紧凑、异类差异，降低相似物体误分类。
正例扩充往往使用同一类别的图像增强，我们采取一个物体不同IoU值作为正例扩充。
我们微调阶段，在Rol head平行的加了一个分支——对比学习分支，该分支衡量proposal之间的相似度。一个有监督的分类器会优化至同一类别的embedding的方差最小（同一类别物体特征紧凑），同时就使得不同类别物体之间间距扩大。
我们提出一个CPE loss，加入原始的loss函数。
据我们所知，FSCE发表的时候，是第一个把对比学习引入小样本目标检测的。
2. 相关工作

少样本学习
元学习方法目标是学习一个通用的元模型，适用于新的类别。基于度量学习的方法强调学习一个好的特征嵌入。最直观的度量包括余弦相似度、到类中心的欧几里得距离、图距离。还有基于图像合成的方法，生成假数据来解决数据缺失。
少样本目标检测
有两条路解决FSOD问题：元学习和基于微调的迁移学习。我们不喜欢过于复杂的模型，因为那样容易过拟合，效果也不好。
我们的目标是通过对比学习，区别不同对象表示，而不增加模型复杂性。
对比学习
半监督模型最近的成功可以归因于对比学习的重新关注。最优化对比目标函数，就是最大化相似对象（正例对）的共同点，不相似对象（负例对）的差异。有了对比学习，算法能够学到一个高语义层次的特征，能够有效区分不同图像。

3. 方法
我们提出的算法包括两步训练。首先，在有着充足数据的base集上训练标准Faster R-CNN检测模型。其次，将训练好的base detector迁移到平衡好正负例的、有novel数据的数据集（所有novel数据加上随机抽取的base）进行微调。微调的时候，backbone的特征提取器是冻结的，但是Rol特征提取器是在对比目标监督下联合训练的。我们在优化分类和回归box位置的目标函数，同时优化了自己定义的一个对比相关的CPE loss。

重新考虑两阶段微调方法
之前的方法在微调的时候都只调整最后两个全连接层（负责分类、box回归），其他的都冻结住，这样可以解决数据量太少产生的过拟合问题。但其实这是反直觉的，因为FPN、RPN、尤其是Rol特征提取器的参数如果固定了，就只包括base数据集的信息。在baseline的TFA方法中，不冻结这些特征层的结果就是novel效果下降。但我们发现其实是可以解决的。
更好的baseline
起初，随着微调component数量的增多，效果逐步下降。但我们注意到对于base数据和novel数据，RPN、Rol数据有很大的断层。positive anchor产生的proposal下降3/4，随之而来的就是前景proposal的下降。尤其是微调起步阶段，novel目标的positive anchor在RPN得到的objectness分数都很低，也就很少的positive anchor可以通过NMS筛选成为Rol head所需学习的proposal。所以我们的目标就是提高positive anchor的低objectness分数。另外，重新平衡前景proposal数量也很重要，防止大量分散的背景像素主导梯度下降。
我们采取以下方式解冻RPN、ROl：（1）将NMS筛选出来的proposal数量double，可以给novel instance提供更多的前景proposal （2）将ROI head中采样的proposal数量也算入loss，因为微调阶段所丢弃的一半的proposal都只包括背景（标准ROl的batch size是512，而前景的proposal一半都不到）。这样，可调的ROI特征提取器为我们实现加入对比学习提供了可能性。
对比学习目标框编码
两阶段检测框架下，RPN的输入是backbone提取的特征图，然后生成建议区域，然后如果判定proposal中有目标，ROI head进行单个区域的分类和回归。在Faster R-CNN流程中，ROI head特征提取器首先将所有的建议区域池化到同一大小，然后将他们转义成ROI特征向量。一般的ROI head无法在有限的样本下生成鲁棒的特征表示，从而导致误分类。所以目标就是让ROI能够学会更有区分度的表示object特征。我们提出批对比学习，建立同类相吸、异类互斥的object proposal embedding。
为了在Faster R-CNN基础上直接加对比学习，我们在原有的ROI head引入对比学习分支，和分类、回归并行。由于ROl 特征是经过ReLU激活的，所以有些部分被抑制为0了，无法衡量相似度。我们采用几乎零成本的单层MLP（多层感知机），将ROI 特征encode成对比特征Z。随后根据Z，比较相似度，并最优化一个对比目标。

加权的（ROI特征向量和class权重向量之间的cosine值）刻画 当前目标属于该class的可能性。我们提出的对比分支可以引导ROI head学出更好地区分不同类别的object proposal嵌入向量。在cosine投影出来的超平面，包含对比信息的嵌入向量使得同类别之间更紧凑，不同类别之间距离更大，就更容易区分不同类别。

CPE loss
主要是比较i和j两个proposal之间的相似度。指数函数括号里面是 i、j两个proposal的标准化向量在cosine投影空间下的相似度。
对比proposal的连续性
我们建议使用IOU阈值确保对比的proposal归属class的一致性，不然选取偏离object中心太多的proposal会携带其他语义信息。因此，IOU大于φ阈值的proposal才会考虑CPE loss，且不同IOU值的proposal对于loss贡献度由g（）函数控制。
目标函数
第一阶段的训练目标就是标准的Faster R-CNN loss（anchor产生前景proposal交叉熵、bbox分类交叉熵误差、L1位置回归误差）。
第二阶段，加入λ加权的CPE loss。

4. 实验

; 个人理解

get

1.利用合理IOU分数的proposal作为数据增强的手段；
2.迁移学习的冻结手段可以放宽至一部分特征提取器一起微调；
3.对比学习分支辅助训练特征提取器生成更好的特征表示向量；

Q&A

1″重新平衡前景proposal数量也很重要，防止大量分散的背景像素主导梯度下降”：所谓的正负样本平衡问题，让负样本产生的loss不要因为数量大而主导了loss。
2.CPE loss的理解：计算和当前proposal i 相同真值的其他所有proposal j 之间的cosine相似度，目标是是二者越相似越好，越相似则log内的越接近1，log出来的值越接近0。log里面有一层的操作有点类似softmax。
3.Faster R-CNN基本架构、L1距离损失函数

4.利用合理IOU分数的proposal作为数据增强的手段—>loss函数的关系

Original: https://blog.csdn.net/qq_41064487/article/details/123862342
Author: qq_41064487
Title: FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding个人理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686397/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于BP神经网络的车牌识别系统的设计

一、基本原理概述基于BP神经网络的的汽车牌照识别系统的处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块。具体涉及以下几个过程： ① 原始车牌图像：由数码相机或其…

人工智能 2023年7月13日
0053
CVPR18 – 不需要指定超参数的无监督聚类《Efficient Parameter-free Clustering Using First Neighbor Relations》

文章目录 * – 原文地址 – 初识 – 相知 – 回顾原文地址 https://arxiv.org/abs/1902.11266…

人工智能 2023年6月2日
00107
React Hooks 的实现必须依赖 Fiber 么？

作者：zxg_神说要有光原文链接：https://juejin.cn/post/7087172219226292237 React 的 hooks 是在 fiber 之后出现的特…

人工智能 2023年6月4日
0086
cbow word2vec 损失_DL4NLP——词表示模型（二）基于神经网络的模型：NPLM；word2vec（CBOW/Skip-gram）…

本文简述了以下内容：神经概率语言模型NPLM，训练语言模型并同时得到词表示 word2vec：CBOW / Skip-gram，直接以得到词表示为目标的模型 (一)原始CBOW(…

人工智能 2023年6月10日
0082
C语言函数详解

一、函数的定义与分类 1.定义 2.分类二、库函数 1.库函数存在的意义 2.库函数的学习和使用三、自定义函数 1.自定义函数的组成 2.示例（1）写一个函数找出两个整数的最…

人工智能 2023年7月29日
0054
【数据分析】：数据分析三大思路及方法

数据分析三大思路及方法在上一篇博文【什么是数据分析】中，我们介绍了数据分析的基本概念、流程、方法。这篇文章我们来看看数据分析的基本思路以及常见的数据分析方法。在互联网分析中，基本…

人工智能 2023年7月15日
0068
当知识图谱遇上预训练语言模型

知识图谱与语言预训练是什么关系呢？本文就将从语言预训练模型开始，介绍知识对语言预训练模型的价值，并介绍几个前沿的知识图谱增强语言预训练模型。 01知识图谱与语言预训练关于&#8…

人工智能 2023年6月1日
0098
WWW‘22 推荐系统论文之图神经网络篇

另RecSys 2022今天已通知录用结果，接收39篇/投稿231篇，录用率为16.9%；恭喜我们小组清华phd小姐姐的论文被录用为oral，笔者也喜提”十八作&#82…

人工智能 2023年7月13日
0048
faster rcnn：towards real-time object detection with region proposal network

轻松掌握 MMDetection 中常用算法(二)：Faster R-CNN|Mask R-CNN – 知乎文@ 0000070 前言在轻松掌握 MMDetectio…

人工智能 2023年7月10日
0074
极限学习机ELM回归预测及其MATLAB代码实现

文章目录 1. 极限学习机ELM原理介绍 * 1.1极限学习机的训练过程 1.2 极限学习机的预测过程 2. 基于极限学习机ELM标准算法的回归预测模型建立 * 2.1 数据说明 …

人工智能 2023年6月15日
0060
基于聚类的推荐算法笔记——以豆瓣电影为例(三）（附源代码）

基于聚类的推荐算法笔记——以豆瓣电影为例(三）（附源代码）第一章聚类算法介绍基于聚类的推荐算法笔记一第二章数据介绍基于聚类的推荐算法笔记二第三章实现推荐算法基于聚类的推…

人工智能 2023年6月2日
0076
Python数据分析与挖掘————图像的处理

系列文章目录文章目录系列文章目录前言图片的马赛克 * – 一.安装matplotlib，numpy等模块二.马赛克图片 + * 一.导入图片二.定位区域三…

人工智能 2023年7月10日
0046
一键式AI绘画，让你也能体验当画师的魅力（附原理分析）

文章目录讲在前面一、Novel AI * 1. 网站介绍 2. AI作画二、AI绘画的内在原理 * 1. Diffusion Model的基本过程 2. 扩散模型的兴起讲在…

人工智能 2023年7月26日
0081
PointRCNN网络结构及原理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0077
Python遍历目录下的文件（os.walk 、os.listdir的用法）

最近想从一个目录转移一些文件到另外一个目录，因为文件有指定的后缀，所以想着用python来转移，不做cv工程师，那就涉及到如何遍历目录（子目录）？下面主要介绍两种方式，os.wa…

人工智能 2023年7月4日
0047
Pycharm创建虚拟环境

目录一、pycharm创建虚拟环境一般步骤一、pycharm创建虚拟环境一般步骤 1、首先打开pycharm下的terminal 以下所有代码都在terminal输入。 2、创…

人工智能 2023年7月5日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding个人理解

FSOD论文系列02

get

Q&A

大家都在看