DABDetr论文解读+核心源码解读

2023年7月21日上午9:19 • 人工智能 • 阅读 92

文章目录

前言
1、论文解读
*
1.1.空间注意力热图可视化
1.2.模型草稿
1.3.详细模型
1.4.设置温度系数
1.5.实验
2、代码讲解
*
2.1.Decoder
2.2.DecoderLayer
总结

前言

本文主要介绍下发表在ICLR2022的DAB-Detr论文的基本思想以及代码的实现。
1、代码地址
2、论文地址
另外，感兴趣可以看下本人写的关于detr其他文章：
1、nn.Transformer使用
2、mmdet解读Detr
3、DeformableDetr
4、ConditionalDetr

1、论文解读

整体模型结构图和Detr很相似：

; 1.1.空间注意力热图可视化

本文认为原始的Detr系列论文中：可学习的object queries仅仅是给model预测bbox提供了参考点（中心点）信息，却没有提供box的宽和高信息。于是，本文考虑引入可学习的锚框来使model能够适配不同尺寸的物体。上图是可视化的三个模型的空间注意力热图（pk*pq），若读者对热图如何产生的，可参考Detr热图可视化。从图中可以看出，引入可学习锚框后，DAB-Detr能够很好覆盖不同尺寸的物体。本文所得出的一个结论：query中content query和key计算相似度完成特征提取，而pos query则用于限制提取区域的范围及大小。

1.2.模型草稿

图中紫色是改动的区域，大体流程是：DAB-Detr直接预设了N个可学习的anchor，这点类似于SparseRCNN。然后经过宽高调制交叉注意力模块，预测出每个锚框四个元素偏移量来更新anchor。

; 1.3.详细模型

上图是我做的一张PPT，展示的是一层DecoderLayer。简单说下流程：首先设定了N个可学习的4维的anchors，然后经过PE和MLP将其映射成Pq。
1) 在self-attn部分：常规的自注意力，使用的是Cq和Pq做加法；
2) 在cross-attn部分：参考点(x,y)部分完全和ConditionalDetr一样，Cq和Pq使用拼接来生成Qq；唯一区别是”宽和高调制交叉注意力模块”：在计算Pk和Pq的权重相似度时引入了一个(1/w,1/h)的一个尺度变换操作。

1.4.设置温度系数

Detr中给特征图每个位置生成位置Pk完全使用的是Transformer中温度系数，而Transformer针对的是单词的嵌入向量设计的，而特征图中像素值大多分布在[0,1]之间，因此，贸然采用10000不合适，所以，本文采用了20。算是个trick吧，能涨一个点左右。

; 1.5.实验

在四个backbone比较了性能，总体来看，达到最优。

2、代码讲解

感觉这套代码质量非常高，因为作者基本上开源了每个实验的代码，值得反复看（包括deformable attn的算子、分布式训练等等）。

2.1.Decoder

首先看下整体Decoder的forward函数部分：

def forward(self, tgt, memory,
            tgt_mask: Optional[Tensor] = None,
            memory_mask: Optional[Tensor] = None,
            tgt_key_padding_mask: Optional[Tensor] = None,
            memory_key_padding_mask: Optional[Tensor] = None,
            pos: Optional[Tensor] = None,
            refpoints_unsigmoid: Optional[Tensor] = None,
            ):

    output = tgt

    intermediate = []
    reference_points = refpoints_unsigmoid.sigmoid()
    ref_points = [reference_points]

    for layer_id, layer in enumerate(self.layers):

        obj_center = reference_points[..., :self.query_dim]

        query_sine_embed = gen_sineembed_for_position(obj_center)
        query_pos = self.ref_point_head(query_sine_embed)

        if self.query_scale_type != 'fix_elewise':
            if layer_id == 0:
                pos_transformation = 1

            else:
                pos_transformation = self.query_scale(output)
        else:
            pos_transformation = self.query_scale.weight[layer_id]

        query_sine_embed = query_sine_embed[...,:self.d_model] * pos_transformation

        if self.modulate_hw_attn:

            refHW_cond = self.ref_anchor_head(output).sigmoid()

            query_sine_embed[..., self.d_model // 2:] *= (refHW_cond[..., 0] / obj_center[..., 2]).unsqueeze(-1)
            query_sine_embed[..., :self.d_model // 2] *= (refHW_cond[..., 1] / obj_center[..., 3]).unsqueeze(-1)

        output = layer(output, memory, tgt_mask=tgt_mask,
                       memory_mask=memory_mask,
                       tgt_key_padding_mask=tgt_key_padding_mask,
                       memory_key_padding_mask=memory_key_padding_mask,
                       pos=pos, query_pos=query_pos, query_sine_embed=query_sine_embed,
                       is_first=(layer_id == 0))

        if self.bbox_embed is not None:
            if self.bbox_embed_diff_each_layer:

                tmp = self.bbox_embed[layer_id](output)
            else:
                tmp = self.bbox_embed(output)

            tmp[..., :self.query_dim] += inverse_sigmoid(reference_points)

            new_reference_points = tmp[..., :self.query_dim].sigmoid()
            if layer_id != self.num_layers - 1:

                ref_points.append(new_reference_points)

            reference_points = new_reference_points.detach()

        if self.return_intermediate:
            intermediate.append(self.norm(output))

    if self.norm is not None:
        output = self.norm(output)
        if self.return_intermediate:
            intermediate.pop()
            intermediate.append(output)

    if self.return_intermediate:
        if self.bbox_embed is not None:
            return [
                torch.stack(intermediate).transpose(1, 2),
                torch.stack(ref_points).transpose(1, 2),
            ]
        else:
            return [
                torch.stack(intermediate).transpose(1, 2),
                reference_points.unsqueeze(0).transpose(1, 2)
            ]

    return output.unsqueeze(0)

2.2.DecoderLayer

内部就是调用了self-attn和cross-attn，pq,pk,cq,ck按照论文中相加或者拼接即可。

def forward(self, tgt, memory,
                 tgt_mask: Optional[Tensor] = None,
                 memory_mask: Optional[Tensor] = None,
                 tgt_key_padding_mask: Optional[Tensor] = None,
                 memory_key_padding_mask: Optional[Tensor] = None,
                 pos: Optional[Tensor] = None,
                 query_pos: Optional[Tensor] = None,
                 query_sine_embed = None,
                 is_first = False):

    if not self.rm_self_attn_decoder:

        q_content = self.sa_qcontent_proj(tgt)
        q_pos = self.sa_qpos_proj(query_pos)
        k_content = self.sa_kcontent_proj(tgt)
        k_pos = self.sa_kpos_proj(query_pos)
        v = self.sa_v_proj(tgt)

        num_queries, bs, n_model = q_content.shape
        hw, _, _ = k_content.shape

        q = q_content + q_pos
        k = k_content + k_pos

        tgt2 = self.self_attn(q, k, value=v, attn_mask=tgt_mask,
                            key_padding_mask=tgt_key_padding_mask)[0]

        tgt = tgt + self.dropout1(tgt2)
        tgt = self.norm1(tgt)

    q_content = self.ca_qcontent_proj(tgt)
    k_content = self.ca_kcontent_proj(memory)
    v = self.ca_v_proj(memory)

    num_queries, bs, n_model = q_content.shape
    hw, _, _ = k_content.shape

    k_pos = self.ca_kpos_proj(pos)

    if is_first or self.keep_query_pos:
        q_pos = self.ca_qpos_proj(query_pos)
        q = q_content + q_pos
        k = k_content + k_pos
    else:
        q = q_content
        k = k_content

    q = q.view(num_queries, bs, self.nhead, n_model//self.nhead)
    query_sine_embed = self.ca_qpos_sine_proj(query_sine_embed)
    query_sine_embed = query_sine_embed.view(num_queries, bs, self.nhead, n_model//self.nhead)

    q = torch.cat([q, query_sine_embed], dim=3).view(num_queries, bs, n_model * 2)
    k = k.view(hw, bs, self.nhead, n_model//self.nhead)
    k_pos = k_pos.view(hw, bs, self.nhead, n_model//self.nhead)
    k = torch.cat([k, k_pos], dim=3).view(hw, bs, n_model * 2)

    tgt2 = self.cross_attn(query=q,
                               key=k,
                               value=v, attn_mask=memory_mask,
                               key_padding_mask=memory_key_padding_mask)[0]

    tgt = tgt + self.dropout2(tgt2)
    tgt = self.norm2(tgt)
    tgt2 = self.linear2(self.dropout(self.activation(self.linear1(tgt))))
    tgt = tgt + self.dropout3(tgt2)
    tgt = self.norm3(tgt)
    return tgt

总结

后面会介绍DN-DETR，敬请期待。若有问题欢迎+vx：wulele2541612007，拉你进群探讨交流。

Original: https://blog.csdn.net/wulele2/article/details/124251533
Author: 武乐乐~
Title: DABDetr论文解读+核心源码解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706748/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【FMCW雷达人体行为识别——多普勒谱提取】

雷达回波的多普勒谱提取之前写过一个基于FMCW雷达的目标轨迹的提取，感觉看的人还是蛮多的，这周准备写一下关于多普勒谱提取的相关内容。主要内容为英国格拉斯哥大学公开的一个人体行为的…

人工智能 2023年6月23日
0072
【计算机网络】运输层：可靠传输的工作原理(1)停止等待协议

IP网络提供不可靠的传输：因为实际网络不具备理想传输条件，所以必须使用一些可靠传输协议，在不可靠的传输信道实现可靠传输。约定：为了简便，设A发送方，B接受方。(实际上为全双工…

人工智能 2023年6月27日
0072
Python深度学习12——Keras实现注意力机制(self-attention)中文的文本情感分类（详细注释）

Keras封装性比较高，现在的注意力机制都是用pytorch较为多。但是使用函数API也可以实现，Keras处理文本并且转化为词向量也很方便。本文使用了一个外卖评价的数据集，标签…

人工智能 2023年5月27日
00115
ubuntu服务器安装cv2

@TOCubuntu服务器安装cv2 opencv_python: import cv2 报错多种安装调试后仍显示ImportError: libXext.so.6: cannot…

人工智能 2023年7月19日
0097
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文翻译 + 网络详解

目录 1 3 4 5 是论文的翻译，如果看过论文也可以直接看关于网络的结构详解。 Abstract 1. Introduction 3. Method 3.1 Overall A…

人工智能 2023年7月13日
0067
tensorflow和keras版本选择（截止2021-08-08）

如果没有提供–env选项，则默认使用tensorFlow -1.9镜像，该镜像和提前装好的Python 3.6、Keras 2.2.0和TensorFlow 1.9.0…

人工智能 2023年5月24日
0079
再谈SQL-to-SQL翻译器

在前一篇文章中《浅析构建SQL-to-SQL的翻译器》，我简单的阐述整体的思想。很高兴借此认识了一些新的小伙伴，并且进行了深入的探讨。今天我们再来做一些进一步的思考，然后再加入一…

人工智能 2023年6月1日
00120
C++ Reference: Standard C++ Library reference: C Library: cwctype: wint_t

C++官网参考链接：https://cplusplus.com/reference/cwctype/wint_t/ 类型 Original: https://blog.csdn.n…

人工智能 2023年6月29日
00104
特斯拉2021年自动驾驶，特斯拉自动驾驶技术专利

如果马斯克将技术开发给其他车企，这也意味着可以促使更多的车企使用这项技术，当然，成本也可能需要由其他品牌和消费者承担，而目前，特斯拉向订购FSD的车主收取1.2万美元（中国地区6….

人工智能 2023年7月14日
0051
详解Transformer中Self-Attention以及Multi-Head Attention

原文名称：Attention Is All You Need原文链接：https://arxiv.org/abs/1706.03762 如果不想看文章的可以看下我在b站上录的视频：…

人工智能 2023年6月16日
0073
机器学习中的预测评价指标MSE、RMSE、MAE、MAPE、SMAPE

💖作者简介：大家好，我是车神哥，府学路18号的车神🥇⚡About—> 车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）📝个人主页：应无所住…

人工智能 2023年7月25日
0099
深度学习中Dropout层作用

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、dropout是什么？二、dropout过程三、dropout在神经网络中的过程前言 D…

人工智能 2023年6月13日
0079
用python批量解压zip（已解决乱码问题）

这个代码可以批量解压带密码的压缩包，同时可以选择解压出指定格式的文件。不过用python解压的速度比不上bandizip，差距巨大。原因不知。源代码 import time im…

人工智能 2023年6月4日
0086
Learning算法中的回归是指什么

问题: Learning算法中的回归是指什么？详细介绍在机器学习中，回归指的是一类用于预测连续型目标变量的算法。回归分析是统计学中的一个重要分支，而机器学习中的回归算法则通过学…

人工智能 2024年1月1日
0052
Python数据处理中常见的案例

判断文件是否存在： import os import pandas as pd MarkTest_path = dest_path+’\\’+’MarkTest.csv’ if n…

人工智能 2023年7月8日
00133
命令行接口实现源码分析

文章来自于命令行接口实现源码分析命令行菜单命令作用rasa init使用示例训练数据、操作和配置文件创建一个新项目。rasa train使用您的 NLU 数据和故事训练模型，…

人工智能 2023年5月30日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31