CVPR2022：使用完全交叉Transformer的小样本目标检测

2023年7月27日上午10:59 • 人工智能 • 阅读 54

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ ComputerVisionGzq

学习群｜ 扫码在主页获取加入方式

论文地址：

https://openaccess.thecvf.com/content/CVPR2022/papers/Han_Few-Shot_Object_Detection_With_Fully_Cross-Transformer_CVPR_2022_paper.pdf

计算机视觉研究院专栏

作者：Edison_G

小样本目标检测 (FSOD)旨在使用很少的训练示例检测新目标，最近在社区中引起了极大的研究兴趣。

概述

小样本目标检测 (FSOD) 旨在使用很少的训练示例检测新目标，最近在社区中引起了极大的研究兴趣。已经证明基于度量学习的方法使用基于双分支的孪生网络对这项任务有效，并计算图像区域和少样本示例之间的相似性以进行检测。

然而，在之前的工作中，两个分支之间的交互只限于检测头，而剩下的数百层用于单独的特征提取。受最近关于视觉转换器和视觉语言转换器的工作的启发，研究者提出了一种新颖的基于完全交叉转换器（Fully Cross-Transformer）的FSOD模型 (FCT)，方法是将交叉转换器整合到特征主干和检测头中。提出了非对称批处理交叉注意来聚合来自具有不同批处理大小的两个分支的关键信息。新模型可以通过引入多级交互来改善两个分支之间的少样本相似性学习。PASCAL VOC和MSCOCO FSOD基准的综合实验证明了我们模型的有效性。

背景

以往小样本检测方法大致可以分为俩类：single-branch方法和two-branch方法；前者通常是基于Faster RCNN进行finetuned，需构建multi-class classifier；但该方法针对shot比较少例如1-shot时，较为容易出现过拟合情况；而后者通常时构建siamese网络，分别同时提取query特征和support特征，然后基于metric learning方法比如feature fusion，feature alignment，GCN或者non-local attention来计算俩分支的相似性，由于在Novel类别上无需构建multi-class classifier，所以泛化性更好；俩类方法大致差异如下图所示：

新框架

Task Definition

在小样本目标检测（FSOD）中，有两组类C=Cbase∪Cnovel和Cbase∩Cnovel=∅，其中基类Cbase每个类都有大量训练数据，而新类Cnovel（也称为支持类）只有每个类的训练示例很少（也称为支持图像）。对于K-shot（例如，K=1,5,10）目标检测，研究者为每个新类别c∈Cnovel准确地使用K个边界框注释作为训练数据。FSOD的目标是利用数据丰富的基类来协助检测少样本的新类。

Overview of Our Proposed Model (FCT)

研究者认为以往的two-branch方法只关注了detection head部分的特征交互，忽略了特征提取部分；于是这篇论文的motivation就出来了。因此研究者在Faster RCNN上提出了Fully Cross-Transformer(FCT)的小样本检测方法，在每个阶段都进行特征交互。如下图所示：

The Cross-Transformer Feature Backbone

在cross-transformer中计算Q-K-V attention时为了减少计算量，研究者采用了PVTv2的方式。上面大致介绍了query和support特征提取，在特征交互上作者提出了 Asymmetric-Batched Cross-Attention。具体做法如下图和公式所示：

评论。研究者彻底研究了提出的模型中两个视觉分支之间的多层次交互。cross-transformer特征主干中的三个阶段使两个分支与低级、中级和高级视觉特征逐渐有效交互。

The Cross-Transformer Detection Head

在detection head部分，和以上操作相反，在每张query上提取完proposal之后经过ROI Align可以得到ROI特征fp∈RBp∗H′∗W′∗C3，其中Bp=100，为了减少计算复杂度还是对support进行ave操作fs′=1Bs∑Bsfs，fs′∈R1∗H′∗W′∗C3，然后使用Asymmetric-Batched Cross-Attention计算俩分支attention，不同的是，query分支Bp≥1 and Bs′=1 。

实验

从上面表格的(c-d)俩行可以看出，使用三阶段训练在2-shot、10-shot上均有提升。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

我们开创” 计算机视觉协会 “知识星球两年有余，也得到很多同学的认可，最近我们又开启了知识星球的运营。 我们 定时会 推送实践型内容与大家分享 ，在星球里的同学可以 随时提问 ，随时提需求，我们都会及时给予回复及给出对应的答复。

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究”。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606

往期推荐

🔗

*

*
*

*

*
*

*
*

Original: https://blog.csdn.net/gzq0723/article/details/126416346
Author: 计算机视觉研究院
Title: CVPR2022：使用完全交叉Transformer的小样本目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718256/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Electron是什么以及可以做什么

新用户购买《Electron + Vue 3 桌面应用开发》，加小册专属微信群，参与群抽奖，送《深入浅出Electron》、《Electron实战》作者签名版。1等奖：《深入浅出E…

人工智能 2023年6月28日
0088
nlp-with-transformers系列-04_多语言命名实体识别

到本章为止，我们已经使用Transformers模型来解决英文语料的NLP任务，但如果我们语料是用Greek, Swahili或者Klingon等语言组成，现在怎么办？一种方法是…

人工智能 2023年5月30日
0059
WEB前端大作业HTML静态网页设计旅游景点区主题——三亚旅游网页设计

家乡旅游景点网页作业制作网页代码运用了DIV盒子的使用方法，如盒子的嵌套、浮动、margin、border、background等属性的使用，外部大盒子设定居中，内部左中右布局，…

人工智能 2023年6月27日
0085
电子游戏数据分析报告

数据分析报告结论： 1.时间维度分析，从全球各地区的销售额变化趋势来看，全球销售额整体是从1980年开始逐步上升直到2008年达到销量顶峰后逐步降低，2008年后直接逐步下降，局部…

人工智能 2023年6月11日
00139
R语言将因子类型数据转化为字符串类型数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
00185
shiro框架04会话管理+缓存管理+Ehcache使用

目录一、会话管理 1.基础组件 1.1 SessionManager 1.2 SessionListener 1.3 SessionDao 1.4 会话验证 1.5 案例二、缓…

人工智能 2023年6月27日
0052
计算机视觉快速入门一 —— 图像基本操作(二）

计算机视觉快速入门一 —— 图像基本操作(二） 1.灰度图 img_gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) import cv2 #…

人工智能 2023年7月5日
0069
项目中遇到的错误

项目中遇到的错误 swagger2 和 swagger3 swagger 文档的注解 springboot 版本问题 SQL 关键字异常 Apifox 的使用集中版本管理 swa…

人工智能 2023年7月30日
0071
【Python机器学习项目】项目一：心脏病二分类问题

使用机器学习预测心脏病根据一些病理学属性预测心脏病特别说明：开新坑啦！本系列共2个项目，难度不大，特别适合新手入坑由于本项目只是系列课程的第一个项目，所以很多细节不深挖，仅…

人工智能 2023年7月2日
00113
【蓝桥杯Python组】2022年第十三届蓝桥杯省赛B组Python解题思路详解

第十三届蓝桥杯省赛B组Python解题思路详解因为今年采用线上的举办方式进行比赛，所以组委会对题目做了一定的调整，将原来的5道填空+5道编程题变成了2道填空+8道编程题，据说是为…

人工智能 2023年7月4日
00117
2022数学建模国赛C题思路分析

文章内容较多，大家仔细观看，所有内容仅供参考！大家不要直接照抄，切记，防止被查重！！一、问题的重述 1.1 研究背景玻璃的主要原料是石英砂，主要化学成分是二氧化硅（SiO2）。…

人工智能 2023年7月29日
0081
【综述】分子表示与性质预测中的深度学习方法

Deep learning methods for molecular representation and property prediction 目录总结一、Introdu…

人工智能 2023年7月28日
0062
论文翻译：2018_LSTM剪枝_Learning intrinsic sparse structures within long short-term memory

论文地址：在长短时记忆中学习内在的稀疏结构论文代码：https://github.com/wenwei202/iss-rnns引用格式：Wen W, He Y, Rajbhanda…

人工智能 2023年6月4日
0084
互联网用户信息处理

互联网用户信息处理 1.读取单文本中的序列号和上网时间年龄 import pandas as pd import re import os inpath="associa…

人工智能 2023年7月7日
0043
李沐动手学深度学习V2-Encoder-Decoder编码器和解码器架构

一. encoder-decoder编码器和解码器架构 1. 介绍机器翻译是序列转换模型的一个核心问题，其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出，可以设…

人工智能 2023年5月27日
00118
PyTorch实战——线性回归在 cpu、gpu下的运行过程

1、首先先介绍什么是线性回归与非线性回归？ 2、线性回归的目的是什么？ 3、用CPU实现线性回归模型 1）初始化x 2）初始化y 3）定义一个模型 4）引用模型 5）指定好参数和损…

人工智能 2023年6月17日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

CVPR2022：使用完全交叉Transformer的小样本目标检测

大家都在看