DETR最近被提出以消除在目标检测中对许多手工设计的组件的需求，同时表现出良好的性能。然而，由于Transformer注意力模块在处理图像特征图时的局限性，它存在收敛速度慢和特征空间分辨率有限的问题。 针对这些问题，我们提出了Deformable DETR，其注意力模块只关注参考周围的少量关键采样点。 Deformable DETR在比DETR少10倍的训练次数下可以获得比DETR (尤其是在小物体上)更好的性能。在COCO基准测试集上的大量实验证明了我们方法的有效性。

代码发布在：https://github.com/fundamentalvision/Deformable-DETR

二、结论

可变形DETR是一种端到端的对象检测器，它高效且快速收敛。它使我们能够探索更有趣和实用的端到端目标检测器的变体。 可变形DETR的核心是(多尺度)可变形注意力模块，它是处理图像特征图的有效注意力机制。我们希望我们的工作为探索端到端的目标检测开辟新的可能性。

三、DEFORMABLE DETR 模型结构

（1）可变形DETR目标检测器

尽管DETR有其有趣的设计和良好的性能，但它也有自己的问题：

收敛速度慢：它需要比现有的目标探测器更长的训练时间才能收敛。例如，在COCO基准上，DETR需要500个epochs才能收敛，比Faster R-CNN慢约10 ~ 20倍。
小目标检测性能差：DETR对小目标的检测性能较低。现代目标检测器通常利用 多尺度特征，从高分辨率特征图中检测出小目标。 同时，高分辨率的特征图会给DETR带来不可接受的复杂性。

为什么Transformer有更高的计算复杂度呢？

答：上述问题主要可归因于Transformer组件在处理图像特征图时的不足。 在初始化时，注意力模块对特征图中的所有像素赋予几乎一致的注意力权重。大量的训练epochs对于学习注意力权重以集中于稀疏的有意义的位置是必要的。 另一方面，Transformer编码器中注意力权重的计算是关于像素个数的二次计算。因此，处理高分辨率特征图具有非常高的计算和内存复杂度。

在图像域， 可变形卷积《Deformableconvolutional networks (ICCV)》是一种强大而有效的机制来处理稀疏的空间位置。它天然地避免了上述问题。 但可变性卷积缺乏元素关系建模机制，而这正是DETR成功的关键。故结合可变性卷积和DETR的思想可以构建一个很好的网络架构。

图1 提出的可变形DETR目标检测器的示意图

下面每一句都很重要！

在本文中，我们提出了变形DETR，它缓解了DETR的收敛速度慢和复杂度高的问题。
它结合了可变形卷积的稀疏空间采样和Transformers的关系建模能力。
我们提出了可变形注意力模块，该模块关注一组小的采样位置，作为所有特征图像素中突出关键元素的预滤波器( pre-filter )。
该模块可以自然地扩展到聚合多尺度特征，而无需借助特征金字塔网络 FPN ( Feature Pyramid Networks )。
在Deformable DETR中，我们使用(多尺度)可变形注意力模块来代替Transformer注意力模块处理特征图 *，如图1所示。

目标检测的主要困难之一是有效地表示不同尺度的目标。之前大多数网络引用的是FPN。但是，我们提出的多尺度可变形注意力模块可以通过注意力机制自然地聚合多尺度特征图，而不需要这些特征金字塔网络的帮助。

（2）可变性注意力模块

在图像特征图上应用Transformer注意力的核心问题是，它会遍历所有可能的空间位置。为了解决这个问题，我们提出了一个可变形注意力模块。受可变形卷积的启发，可变形注意力模块只关注参考点周围的一小部分关键采样点，而不考虑特征图的空间大小，如图2所示。通过为 每个查询只分配少量固定数量的键，可以缓解收敛性和特征空间分辨率问题。

图2 提出的可变形注意力模块的插图

给定一个输入特征映射

，令

索引一个带有内容特征

和一个二维参考点

的查询元素， 可变形注意力特征由下式计算

m 表示注意力头（head）。
k 表示 sampled key。K 表示 total sampled key number( K << HW )。
表示第 L个特征层和第 m 个注意力头中第 k 个采样点的 采样偏移量。
表示第 L 个特征层和第 m 个注意力头中第 k 个采样点的 注意力权重 V。
，Xk表示第k个采样点，Um和Vm是可学习的参数。
标量注意力权重的取值范围为[ 0 , 1]，通过进行归一化。
和都是通过在查询特征上的线性投影获得的。
在实现中，查询特征被送入 3MK通道的线性投影算子，其中前 2MK通道编码采样偏移量为，其余 MK通道被送入 softmax算子以获得注意力权重。

（3）多尺度可变形注意力模块

大多数现代目标检测框架都受益于多尺度特征图《Deep learning for generic object detection: A survey》。我们提出的可变形注意力模块可以自然地扩展为多尺度特征图。

m 表示注意力头（head）。
k 表示 sampled key。K 表示 total sampled key number( K << HW )。
表示第 L个特征层和第 m个注意力头中第 k个采样点的 采样偏移量。
表示第 L个特征层和第 m个注意力头中第 k个采样点的 注意力权重 V。
, Xk表示第k个采样点, Um和Vm是可学习的参数。
标量注意力权重通过标准化。
多尺度可变形注意力与以前的单尺度版本非常相似，只是它从多尺度特征图中采样 LK 点，而不是从单尺度特征图中采样 K 点。

我们所提出的(多尺度)可变形注意力模块也可以看作是Transformer注意力的有效变体，其中通过可变形采样位置引入了预滤波器机制( pre-filtering mechanism )。 当采样点遍历所有可能的位置时，建议的注意力模块等效于Transformer注意力（公式如下）。

上面公式中，Transformer Q、K、V 分别是什么呢？
，Um和Vm是可学习的参数。

Amqk 注意力权重，相当于 Vaule
Xk 表示 key 元素
Zq 表示 query 元素
Wm表示注意力头m的可更新权重

（4）Deformable Transformer Encoder

我们将DETR中处理特征图的Transformer注意力模块替换为提出的多尺度可变形注意力模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中，通过ResNet (transformed by a 1 × 1 convolution) 中的从

阶段到

阶段的输出特征图中 提取多尺度特征图

，其中分辨率的

比输入图小

。在最后的

级上通过 3 × 3 步长为 2 的卷积得到的最低分辨率特征图

，记为

。 所有多尺度特征图的通道数为 C = 256 。

注意：FPN 中自顶向下的结构没有被使用，因为我们提出的多尺度可变形注意力机制本身可以在多尺度特征图之间交换信息。多尺度特征图的构造如图3 所示。注：添加FPN不会提高性能。

图3 为可变形DETR构建多尺度特征图

在编码器多尺度可变形注意力模块的应用中，输出是与输入具有相同分辨率的多尺度特征图。 键元素和查询元素均为多尺度特征图中的像素。对于每个查询像素，参考点为其本身。为了识别每个查询像素位于哪个特征级别（即属于目标物体的概率），除了位置嵌入外，我们在特征表示中添加了一个尺度级别的嵌入，记为。不同于固定编码的位置嵌入，尺度级嵌入

随机初始化并与网络联合训练。

（6）Deformable Transformer Decoder

解码器中存在交叉注意力和自注意力模块，两种类型的注意力模块的查询元素都是对象查询。

由于多尺度可变形注意力模块提取参考点周围的图像特征，我们让检测头预测边界框作为参考点的相对偏移量，以进一步降低优化难度。将参考点作为箱体中心的初始猜测。检测头预测参考点的相对偏移量。详见附录A.3。 这样，学习到的解码器注意力将与预测的边界框具有较强的相关性，这也加速了训练收敛。

通过将DETR中的Transformer注意力模块替换为可变形注意力模块，我们建立了一个高效、快速收敛的检测系统，称为可变形DETR (见图1 )。

四、实验细节

使用Image Net预训练的Res Net-50作为消融主干。在不使用FPN的情况下提取多尺度特征图。 默认情况下，M = 8和K = 4被设置为可变形注意力。可变形Transformer编码器的参数在不同的特征级之间共享。 其他超参数设置和训练策略主要沿用DETR，除了损失权重为2的Focal Loss用于包围盒分类，对象查询数量从100个增加到300个。我们还报告了DETR-DC5经过这些修改后的性能，以便进行公平的比较，记为DETR-DC5 +。默认情况下，模型训练50个历元，学习速率在第40个epoch衰减0.1倍。在DETR的基础上，我们使用Adam优化器来训练我们的模型，其基于学习速率为2 × 10^(-4)，β1 = 0.9，β2 = 0.999，权重衰减为10^(- 4)。用于预测对象查询参考点和采样偏移量的线性投影的学习率乘以0.1。在NVIDIA Tesla V100 GPU上评估运行时间。

五、与DETR实验结果的比较

如表1 所示，与Faster R- CNN + FPN相比，DETR需要更多的训练次数才能收敛，并且在检测小目标时性能较低。与DETR相比，Deformable DETR在10 ×少的训练次数下获得了更好的性能(尤其是在小物体上)。详细的收敛曲线如图3所示。借助 Iterative Bounding Box Refinement和 Two-Stage Deformable DETR，我们的方法可以进一步提高检测精度。

我们提出的可变形DETR与Faster R- CNN + FPN和DETR – DC5具有相同的FLOP。但运行速度比DETR – DC5快得多( 1.6 × )，仅比FasterR – CNN + FPN慢25 %。DETR – DC5的速度问题主要是由于Transformer注意力中的访存量较大。我们提出的可变形注意力可以减轻这个问题，代价是无序的内存访问。因此，它仍然 略慢于传统的卷积。

表1 变形DETR与DETR在COCO2017阀组上的比较。

DETR-DC5 +表示具有Focal Loss和300个对象查询的DETR – DC5。

Iterative Bounding Box Refinement.这是受到光流估计《Raft：用于光流的循环所有点对字段转换。》中发展的迭代求精的启发。我们建立了一种简单有效的迭代边界框精化机制来提高检测性能。这里，每个解码器层根据上一层的预测对边界框进行细化。

Two-Stage Deformable DETR.在原始DETR中，解码器中的对象查询与当前图像无关。受两阶段目标检测器的启发，我们探索了Deformable DETR的一个变体，作为第一阶段生成候选区域。生成的区域建议将作为对象查询反馈到解码器中进行进一步的细化，形成一个两阶段的可变形DETR。在第一阶段，为了实现高召回率的建议，多尺度特征图中的每个像素将作为一个对象查询。然而，直接将对象查询设置为像素会给解码器中的自注意力模块带来不可接受的计算和内存开销，其复杂度与查询次数呈二次方增长。为了避免这个问题，我们去掉解码器，形成一个仅有编码器的Deformable DETR用于区域建议生成。其中，每个像素被分配为一个对象查询，它直接预测一个边界框。顶级得分包围盒被选为区域建议。在将区域提案提交到第二阶段之前，不应用NMS。

图4 Deformable DETR和DETR – DC5在COCO 2017 val集上的收敛曲线

对于Deformable DETR，我们通过改变学习率降低(AP得分跳跃)的epoch来探索不同的训练计划。

五、编码器和解码器工作过程的可视化

图5：最终检测结果中每个对象框关于输入图像 I中每个像素的梯度范数

物体中心坐标( x , y )，
宽高比的梯度范数w / h，
该对象的类别分数c 。

( a ) 编码器中的多尺度可变形自注意力

( b ) 解码器中的多尺度可变形交叉注意力

图6 多尺度可变形注意力的可视化

为了可读性，我们从一张图片中不同分辨率的特征图中提取 采样点和 注意力权重。每个采样点被标记为一个填充圆，其颜色表示其对应的注意力权重。 参考点显示为绿色交叉标记，也相当于编码器中的 查询点。在解码器中，预测的边界框显示为一个绿色的矩形，类别和置信度得分在其上方。

Self-Attention、Transformer、DETR在我的专栏中，有兴趣可进行阅读。

Original: https://blog.csdn.net/qq_54185421/article/details/125902884
Author: Flying Bulldog
Title: DEFORMABLE DETR 论文精度，并解析网络模型结构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681701/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

windows10+pytorch+cuda11.3+cudnn8.2.1环境搭配

本人用的联想拯救者R7000p，系统是win10 64位显卡是3050Ti laptop 本文为从零开始搭建pytorch环境的详细步骤因为文章有点久远，或许细节问题描述不清，…

人工智能 2023年7月23日
0058
SpringBoot：（四）底层注解详解

4.1 @Configuration详解基本使用： 声明当前类&am…

人工智能 2023年6月26日
0081
Linux安装Nvidia驱动和CUDA的正确方法（详细）

Linux安装Nvidia driver和Cuda的详细步骤一、安装Nvidia驱动 1、准备工作 1）查看显卡型号 lspci |grep -i nvidia 2）禁用nouv…

人工智能 2023年6月16日
00148
opencv+tesseract完成验证码识别（识别率99.99%）

一、需要识别的内容需要识别的验证码内容如下验证码下载下载地址。二、直接调用tesseract来完成识别（识别率很差）识别的图片内容为：在window系统钟打开cmd命令窗…

人工智能 2023年7月18日
0042
【PyTorch系列】PyTorch之torchvision 图像处理库详解

转换和增强图像（TRANSFORMING AND AUGMENTING）转换是模块中可用的常见图像转换。可以使用 Compose 将它们链接在一起。大多数转换类都具有函数等效项：…

人工智能 2023年6月20日
0080
微信小程序和微信公众号的区别和优势

一、小程序和公众号各自的优势如下：小程序： 1、小程序在功能操作上要更加流畅好用，有好的用户体验。 2、用完即走，不打扰用户，让用户有一个非常轻松的使用环境。 3、分享传播更加方…

人工智能 2023年6月28日
0070
机器学习-分类随机森林分析(randomForest模型构建、参数调优、特征变量筛选、模型评估和基础理论等)

此文主要涉及随机森林分类分析，主要包含以下几部分内容： 1）随机森林基础知识 2）randomForest()认识及构建分类判别模型； 3）随机森林参数调优 4）随机森林模型评估 …

人工智能 2023年6月19日
0087
深度学习实战篇之 ( 十七) — TensorFlow之DenseNet

科普知识 ACM 国际多媒体会议（ACM International Conference on Multimedia）是计算机科学领域中多媒体领域的首要国际会议。多媒体研究的重点…

人工智能 2023年5月24日
0075
GhostNet网络详解

GhostNet网络一张图片经过神经网络进行特征提取后，能够得到很多特征图。在特征图中会有一些相似性很高，这就是神经网络中存在的特征图冗杂的情况(如图中扳手相连的两幅特征图)…

人工智能 2023年6月17日
0071
【python数据结构算法】并查集

前言🍉 并查集被很多OIer认为是最简洁而优雅的数据结构之一，主要用于解决一些元素分组的问题。它管理一系列不相交的集合，并支持两种操作：合并（Union）：把两个不相交的集合…

人工智能 2023年6月27日
0076
pytorch框架实现BI-LSTM模型进行情感分类

总述本文的目标是针对一个句子，给出其情感二分类，正向/负向。代码存放地址： https://github.com/stay-leave/BI-LSTM-sentiment-cla…

人工智能 2023年6月17日
0055
Prompt Learning – 2：TemplateNER 论文精读，利用 Prompt 完成 NER 任务

本文内容主要以发表于 ACL2020 的论文《Template-Based Named Entity Recognition Using BART》作为基础，讲述论文作者如何以 …

人工智能 2023年5月30日
0080
泰坦尼克号数据分析预测建模准确率测算

本文思路： https://blog.csdn.net/u013788252/article/details/105528116 （运行环境: jupyter notebook p…

人工智能 2023年6月11日
0064
OpenAI 开源语音识别模型 Whisper 初体验

OpenAI 开源语音识别模型 Whisper 初体验前言一、Whisper 9种运行模型以及所需配置二、使用conda 和 ffmpeg的实现步骤 * 1.准备环境 2. …

人工智能 2023年7月27日
0044
系统（层次）聚类法及Spss实现

目录一.定义二.思想三.举例四.系统聚类法的Spss实现五.结语一.定义系统聚类法(hierarchjcal cluster method)一译”分层聚类…

人工智能 2023年5月31日
0086
深度学习(四)：ubuntu系统tensorflow框架搭建与测试

目录一、tensorflow安装与测试 1.1 tensorflow 与cuda版本对应版本 1.2 测试gpu 一、tensorflow安装与测试 1.1 tensorflow…

人工智能 2023年5月26日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DEFORMABLE DETR 论文精度，并解析网络模型结构

一、摘要