detr目标检测算法源码详解

2023年7月12日上午3:28 • 人工智能 • 阅读 67

1.图像数据加上mask

对于每一批次的图像，首先找出每一批次图片的H,W的最大值Hmax,Wmax,然后将原始图像填充为3HmaxWmax大小，并将图像部分置为False，填充部分置为True.最后将图像数据tensor和mask打包为nesttensor格式

（从nesttensor取出tensors和mask只需要调用方法tensor_list.tensors、tensor_list.mask即可）

代码如下：

def nested_tensor_from_tensor_list(tensor_list: List[Tensor]):
    # TODO make this more general
"""
    - samples.tensor: batched images, of shape [batch_size x 3 x H x W]
    - samples.mask: a binary mask of shape [batch_size x H x W], containing 1 on padded pixels
"""
    if tensor_list[0].ndim == 3:
        if torchvision._is_tracing():
            # nested_tensor_from_tensor_list() does not export well to ONNX
            # call _onnx_nested_tensor_from_tensor_list() instead
            return _onnx_nested_tensor_from_tensor_list(tensor_list)

        # TODO make it support different-sized images
        # bach_size&#x4E2D;&#x80FD;&#x591F;&#x63A5;&#x53D7;&#x6240;&#x6709;&#x56FE;&#x7247;&#x5927;&#x5C0F;&#x7684;&#x56FE;&#x7247;size
        # C*H*W
        max_size = _max_by_axis([list(img.shape) for img in tensor_list])
        # min_size = tuple(min(s) for s in zip(*[img.shape for img in tensor_list]))
        # Batch_size * C *H*W
        batch_shape = [len(tensor_list)] + max_size
        b, c, h, w = batch_shape
        dtype = tensor_list[0].dtype
        device = tensor_list[0].device
        # &#x751F;&#x6210;mask,&#x6709;&#x56FE;&#x50CF;&#x90E8;&#x5206;&#x5168;&#x4E3A;False&#xFF0C;&#x586B;&#x5145;&#x90E8;&#x5206;&#x5168;&#x4E3A;true
        tensor = torch.zeros(batch_shape, dtype=dtype, device=device)
        mask = torch.ones((b, h, w), dtype=torch.bool, device=device)
        for img, pad_img, m in zip(tensor_list, tensor, mask):
            pad_img[: img.shape[0], : img.shape[1], : img.shape[2]].copy_(img)
            m[: img.shape[1], :img.shape[2]] = False
    else:
        raise ValueError('not supported')
    return NestedTensor(tensor, mask)

2.backbone部分

（1）位置编码

位置编码提供了两种编码方式，一种是正弦编码，一种是可以学习的编码，默认为正弦编码。

正弦编码：

取出mask，对mask进行取反，因为编码方式为二维编码，我们对行、和列分别进行累加，作为每一个维度的编码，并进行归一化，转化为角度。同时我们假设编码的每一维度都由一个128维的向量组成。然后，我们按照如下正弦编码方式进行编码,对奇数求余弦，偶数求正弦。编码后，x_emding,y_emding的维度均为batchhw*128

代码如下：

class PositionEmbeddingSine(nn.Module):
"""
    This is a more standard version of the position embedding, very similar to the one
    used by the Attention is all you need paper, generalized to work on images.

"""
    def __init__(self, num_pos_feats=64, temperature=10000, normalize=False, scale=None):
        super().__init__()
        self.num_pos_feats = num_pos_feats
        self.temperature = temperature
        self.normalize = normalize
        if scale is not None and normalize is False:
            raise ValueError("normalize should be True if scale is passed")
        if scale is None:
            scale = 2 * math.pi
        self.scale = scale

    def forward(self, tensor_list: NestedTensor):
        # shape:2, 2048, 24, 29
        x = tensor_list.tensors
        # print(x.shape)
        # shape:2, 24, 29
        mask = tensor_list.mask
        # print(mask.shape)
        assert mask is not None
        # &#x53D6;&#x53CD;
        not_mask = ~mask
        # &#x884C;&#x65B9;&#x5411;&#x7D2F;&#x52A0; 2, 24, 29
        y_embed = not_mask.cumsum(1, dtype=torch.float32)
        # print(y_embed.shape)
        # &#x5217;&#x65B9;&#x5411;&#x7D2F;&#x52A0; 2, 24, 29
        x_embed = not_mask.cumsum(2, dtype=torch.float32)
        # print(x_embed.shape)
        # &#x5F52;&#x4E00;&#x5316;&#xFF0C;&#x5E76;&#x8F6C;&#x5316;&#x4E3A;&#x89D2;&#x5EA6;
        if self.normalize:
            eps = 1e-6
            y_embed = y_embed / (y_embed[:, -1:, :] + eps) * self.scale
            x_embed = x_embed / (x_embed[:, :, -1:] + eps) * self.scale
        # &#x5047;&#x8BBE;&#x6A2A;&#x7EB5;&#x5750;&#x6807;&#x90FD;&#x6709;128&#x4E2A;&#xFF0C;&#x5957;&#x7528;&#x6B63;&#x5F26;&#x7F16;&#x7801;&#x516C;&#x5F0F;
        dim_t = torch.arange(self.num_pos_feats, dtype=torch.float32, device=x.device)
        # print(dim_t.shape)
        dim_t = self.temperature ** (2 * (dim_t // 2) / self.num_pos_feats)
        # print(dim_t.shape)
        # 2, 24, 29, 128
        pos_x = x_embed[:, :, :, None] / dim_t
        # print(pos_x.shape)
        # 2, 24, 29, 128
        pos_y = y_embed[:, :, :, None] / dim_t
        # print(pos_y.shape)
        pos_x = torch.stack((pos_x[:, :, :, 0::2].sin(), pos_x[:, :, :, 1::2].cos()), dim=4).flatten(3)
        # print(pos_x.shape)
        # 2, 24, 29, 128
        pos_y = torch.stack((pos_y[:, :, :, 0::2].sin(), pos_y[:, :, :, 1::2].cos()), dim=4).flatten(3)
        # print(pos_y.shape)
        # 2, 24, 29, 128
        pos = torch.cat((pos_y, pos_x), dim=3).permute(0, 3, 1, 2)
        # print(pos.shape)
        return pos

backbone:直接使用pytorch的resnet迁移学习模型，对图像数据tensor进行卷积操作，对mask进行下采样操作

class BackboneBase(nn.Module):

    def __init__(self, backbone: nn.Module, train_backbone: bool, num_channels: int, return_interm_layers: bool):
        super().__init__()
        for name, parameter in backbone.named_parameters():
            if not train_backbone or 'layer2' not in name and 'layer3' not in name and 'layer4' not in name:
                parameter.requires_grad_(False)
        # &#x83B7;&#x53D6;&#x4E2D;&#x95F4;&#x5C42;&#x7ED3;&#x679C;
        if return_interm_layers:
            return_layers = {"layer1": "0", "layer2": "1", "layer3": "2", "layer4": "3"}
        else:
            return_layers = {'layer4': "0"}
        # &#x83B7;&#x53D6;&#x6A21;&#x578B;&#x4E2D;&#x95F4;&#x5C42;&#x7684;&#x8F93;&#x51FA;
        self.body = IntermediateLayerGetter(backbone, return_layers=return_layers)
        self.num_channels = num_channels

    def forward(self, tensor_list: NestedTensor):
        # &#x5BF9;tensor&#x8FDB;&#x884C;&#x5377;&#x79EF;
        xs = self.body(tensor_list.tensors)
        out: Dict[str, NestedTensor] = {}
        for name, x in xs.items():
            m = tensor_list.mask
            assert m is not None
            # &#x5BF9;mask&#x8FDB;&#x884C;&#x4E0B;&#x91C7;&#x6837;
            mask = F.interpolate(m[None].float(), size=x.shape[-2:]).to(torch.bool)[0]
            # &#x7ED3;&#x679C;&#x8F6C;&#x6362;&#x4E3A;NestedTensor&#x683C;&#x5F0F;
            out[name] = NestedTensor(x, mask)
        return out

class Backbone(BackboneBase):
    """ResNet backbone with frozen BatchNorm."""
    def __init__(self, name: str,
                 train_backbone: bool,
                 return_interm_layers: bool,
                 dilation: bool):
        # &#x52A0;&#x8F7D;&#x6A21;&#x578B;
        backbone = getattr(torchvision.models, name)(
            replace_stride_with_dilation=[False, False, dilation],
            pretrained=is_main_process(), norm_layer=FrozenBatchNorm2d)
        num_channels = 512 if name in ('resnet18', 'resnet34') else 2048
        super().__init__(backbone, train_backbone, num_channels, return_interm_layers)

resnet结构：

Backbone(
  (body): IntermediateLayerGetter(
    (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
    (bn1): FrozenBatchNorm2d()
    (relu): ReLU(inplace=True)
    (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
    (layer1): Sequential(
      (0): Bottleneck(
        (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
        (downsample): Sequential(
          (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (1): FrozenBatchNorm2d()
        )
      )
      (1): Bottleneck(
        (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (2): Bottleneck(
        (conv1): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
    )
    (layer2): Sequential(
      (0): Bottleneck(
        (conv1): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
        (downsample): Sequential(
          (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): FrozenBatchNorm2d()
        )
      )
      (1): Bottleneck(
        (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (2): Bottleneck(
        (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (3): Bottleneck(
        (conv1): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
    )
    (layer3): Sequential(
      (0): Bottleneck(
        (conv1): Conv2d(512, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
        (downsample): Sequential(
          (0): Conv2d(512, 1024, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): FrozenBatchNorm2d()
        )
      )
      (1): Bottleneck(
        (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (2): Bottleneck(
        (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (3): Bottleneck(
        (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (4): Bottleneck(
        (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (5): Bottleneck(
        (conv1): Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(256, 1024, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
    )
    (layer4): Sequential(
      (0): Bottleneck(
        (conv1): Conv2d(1024, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
        (downsample): Sequential(
          (0): Conv2d(1024, 2048, kernel_size=(1, 1), stride=(2, 2), bias=False)
          (1): FrozenBatchNorm2d()
        )
      )
      (1): Bottleneck(
        (conv1): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
      (2): Bottleneck(
        (conv1): Conv2d(2048, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn1): FrozenBatchNorm2d()
        (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn2): FrozenBatchNorm2d()
        (conv3): Conv2d(512, 2048, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn3): FrozenBatchNorm2d()
        (relu): ReLU(inplace=True)
      )
    )
  )
)

联合起来：首先将数据输入resnet，进行卷积同时对mask进行下采样，然后运行位置编码层，进行位置编码

class Joiner(nn.Sequential):
    def __init__(self, backbone, position_embedding):
        super().__init__(backbone, position_embedding)

    def forward(self, tensor_list: NestedTensor):
        # print(tensor_list.tensors.shape)
        # &#x524D;&#x9879;&#x4F20;&#x64AD;&#xFF0C;&#x5C06;&#x6570;&#x636E;&#x8F93;&#x5165;backbone,shape:2, 3, 765, 911
        xs = self[0](tensor_list)
        # &#x8F93;&#x51FA;:2, 2048, 24, 29,&#x53EA;&#x8FD4;&#x56DE;layer4&#x7684;&#x7ED3;&#x679C;
        # print(xs)
        out: List[NestedTensor] = []
        pos = []
        for name, x in xs.items():
            # print(name)
            # print(x.tensors.shape)
            out.append(x)
            # position encoding
            # &#x8FD0;&#x884C;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#x5C42;
            pos.append(self[1](x).to(x.tensors.dtype))
            # print(pos.shape)

        return out, pos

2.transformer部分

我们在backbone部分得到了特征图和位置编码，其中特征图的维度batch_size2048HW,mask维度batch_szieHW,我们首先将特征图通过11的卷积降维至batch_size256HW大小，通时构建维度为256100的query向量，输入transformer网络中

encoder部分

我们将position_embeding，特征图维度,mask分别变为HWbatch_size256,HWxNx256,batch_size*HW,输入encoder中，对queries,和key加上位置编码，然后经过多头注意力机制，结构如下：

代码如下：

class TransformerEncoderLayer(nn.Module):

    def __init__(self, d_model, nhead, dim_feedforward=2048, dropout=0.1,
                 activation="relu", normalize_before=False):
        super().__init__()
        # dmodel:256 nhead:8
        self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout)
        # Implementation of Feedforward model
        self.linear1 = nn.Linear(d_model, dim_feedforward)
        self.dropout = nn.Dropout(dropout)
        self.linear2 = nn.Linear(dim_feedforward, d_model)

        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout1 = nn.Dropout(dropout)
        self.dropout2 = nn.Dropout(dropout)

        self.activation = _get_activation_fn(activation)
        self.normalize_before = normalize_before

    def with_pos_embed(self, tensor, pos: Optional[Tensor]):
        return tensor if pos is None else tensor + pos

    def forward_post(self,
                     src,
                     src_mask: Optional[Tensor] = None,
                     src_key_padding_mask: Optional[Tensor] = None,
                     pos: Optional[Tensor] = None):
        # shape:696, 2, 256
        q = k = self.with_pos_embed(src, pos) #&#x53EA;&#x6709;K&#x548C;Q &#x52A0;&#x5165;&#x4E86;&#x4F4D;&#x7F6E;&#x7F16;&#x7801;&#xFF1B;&#x5E76;&#x6CA1;&#x6709;&#x5BF9;V&#x505A;
        # print(q.shape)
        # &#x4E24;&#x4E2A;&#x8FD4;&#x56DE;&#x503C;&#xFF1A;&#x81EA;&#x6CE8;&#x610F;&#x529B;&#x5C42;&#x7684;&#x8F93;&#x51FA;&#xFF0C;&#x81EA;&#x6CE8;&#x610F;&#x529B;&#x6743;&#x91CD;&#xFF1B;&#x53EA;&#x9700;&#x8981;&#x7B2C;&#x4E00;&#x4E2A;
        # shape:696, 2, 256
        src2 = self.self_attn(q, k, value=src, attn_mask=src_mask,
                              key_padding_mask=src_key_padding_mask)[0]
        # print(src2.shape)
        # &#x6B8B;&#x5DEE;&#x8FDE;&#x63A5;
        src = src + self.dropout1(src2)
        # &#x5C42;&#x5F52;&#x4E00;&#x5316;+&#x5168;&#x8FDE;&#x63A5;
        src = self.norm1(src)
        src2 = self.linear2(self.dropout(self.activation(self.linear1(src))))
        # print(src2.shape)
        # &#x6B8B;&#x5DEE;&#x8FDE;&#x63A5;
        src = src + self.dropout2(src2)
        # &#x5C42;&#x5F52;&#x4E00;&#x5316;
        src = self.norm2(src)
        # print(src.shape)
        return src

    def forward_pre(self, src,
                    src_mask: Optional[Tensor] = None,
                    src_key_padding_mask: Optional[Tensor] = None,
                    pos: Optional[Tensor] = None):
        src2 = self.norm1(src)
        q = k = self.with_pos_embed(src2, pos)
        src2 = self.self_attn(q, k, value=src2, attn_mask=src_mask,
                              key_padding_mask=src_key_padding_mask)[0]
        src = src + self.dropout1(src2)
        src2 = self.norm2(src)
        src2 = self.linear2(self.dropout(self.activation(self.linear1(src2))))
        src = src + self.dropout2(src2)
        return src

    def forward(self, src,
                src_mask: Optional[Tensor] = None,
                src_key_padding_mask: Optional[Tensor] = None,
                pos: Optional[Tensor] = None):
        if self.normalize_before:
            return self.forward_pre(src, src_mask, src_key_padding_mask, pos)
        return self.forward_post(src, src_mask, src_key_padding_mask, pos)

decoder部分

解码器首先随机初始化object queries（0+位置编码），以自身为q,k,v，做自注意力机制运算，以计算结果作为下一次注意力机制的query(加上位置编码),同时，注意力机制以encoder的输出为keys和value,最终经过6次的decoder模块，将6次decoder的结果保存，shape改变为6batch_size100*256

FFN层

对于分类，我们直接连接一层全连接进行预测，对于回归，我们使用3层全连接层，并在前两层使用relu激活函数，最后将结果使用sigmoid激活函数，保证值大于0，最后我们使用最后一层的结果作为输出。

ModuleList(
  (0): Linear(in_features=256, out_features=256, bias=True)
  (1): Linear(in_features=256, out_features=256, bias=True)
  (2): Linear(in_features=256, out_features=4, bias=True)
)

整个detr部分代码：

class DETR(nn.Module):
    """ This is the DETR module that performs object detection """
    def __init__(self, backbone, transformer, num_classes, num_queries, aux_loss=False):
        """ Initializes the model.

        Parameters:
            backbone: torch module of the backbone to be used. See backbone.py
            transformer: torch module of the transformer architecture. See transformer.py
            num_classes: number of object classes
            num_queries: number of object queries, ie detection slot. This is the maximal number of objects
                         DETR can detect in a single image. For COCO, we recommend 100 queries.

            aux_loss: True if auxiliary decoding losses (loss at each decoder layer) are to be used.

"""
        super().__init__()
        self.num_queries = num_queries
        self.transformer = transformer
        hidden_dim = transformer.d_model
        self.class_embed = nn.Linear(hidden_dim, num_classes + 1)
        self.bbox_embed = MLP(hidden_dim, hidden_dim, 4, 3)
        self.query_embed = nn.Embedding(num_queries, hidden_dim)
        self.input_proj = nn.Conv2d(backbone.num_channels, hidden_dim, kernel_size=1)
        self.backbone = backbone
        self.aux_loss = aux_loss

    def forward(self, samples: NestedTensor):
        """&#xA0;The forward expects a NestedTensor, which consists of:
               - samples.tensor: batched images, of shape [batch_size x 3 x H x W]
               - samples.mask: a binary mask of shape [batch_size x H x W], containing 1 on padded pixels

            It returns a dict with the following elements:
               - "pred_logits": the classification logits (including no-object) for all queries.

                                Shape= [batch_size x num_queries x (num_classes + 1)]
               - "pred_boxes": The normalized boxes coordinates for all queries, represented as
                               (center_x, center_y, height, width). These values are normalized in [0, 1],
                               relative to the size of each individual image (disregarding possible padding).

                               See PostProcess for information on how to retrieve the unnormalized bounding box.

               - "aux_outputs": Optional, only returned when auxilary losses are activated. It is a list of
                                dictionnaries containing the two above keys for each decoder layer.

"""
        if isinstance(samples, (list, torch.Tensor)):
            samples = nested_tensor_from_tensor_list(samples)
        features, pos = self.backbone(samples)
        # print(pos[-1].shape)
        # &#x53EF;&#x4EE5;&#x8BBE;&#x7F6E;&#x8FD4;&#x56DE;resnet&#x7684;&#x591A;&#x5C42;&#x7ED3;&#x679C;&#xFF0C;&#x6211;&#x4EEC;&#x53EA;&#x53D6;&#x6700;&#x540E;&#x4E00;&#x5C42;&#x7684;&#x7ED3;&#x679C;&#xFF0C;&#x8FDB;&#x884C;&#x6570;&#x636E;&#x5206;&#x89E3;
        # src:2, 2048, 24, 29
        # mask:2, 24, 29
        src, mask = features[-1].decompose()
        # print(src.shape)
        # print(mask.shape)
        assert mask is not None
        # self.input_proj(src):1*1&#x5377;&#x79EF;&#xFF0C;&#x7279;&#x5F81;&#x56FE;:2, 2048, 24, 29-->2, 256, 24, 29
        # hs.shape:6, 2, 100, 256
        hs = self.transformer(self.input_proj(src), mask, self.query_embed.weight, pos[-1])[0]
        # print(hs.shape)
        outputs_class = self.class_embed(hs)
        outputs_coord = self.bbox_embed(hs).sigmoid()
        out = {'pred_logits': outputs_class[-1], 'pred_boxes': outputs_coord[-1]}
        if self.aux_loss:
            out['aux_outputs'] = self._set_aux_loss(outputs_class, outputs_coord)
        return out

损失函数

损失函数包含两部分，分类损失和回归损失，分类损失使用交叉熵损失，回归损失包含两部分，边界框损失使用L1损失，再加上GIOU损失

Original: https://blog.csdn.net/qq_52053775/article/details/126309132
Author: 樱花的浪漫
Title: detr目标检测算法源码详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686846/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python panda3d从入门_笔记：Python之Pandas的使用技巧

Pandas的使用技巧相关知识点总结 pandas的使用技巧相关知识点总结表.png 一、数学计算与统计基础 (1)基本参数axis和skipna 基本参数：axis、skipna…

人工智能 2023年7月7日
0062
Landsat 7两个热红外波段B61和B62的区别与应用时的选择方法

本文介绍 Landsat 7遥感影像数据中 B61、 B62两个热红外波段的区别，以及研究应用时二者选择的依据。 Landsat 7遥感影像数据具有2个热红外波段，分别是 Ban…

人工智能 2023年6月29日
0073
大招：召唤最优的多因素cox模型

AIC信息准则即Akaike information criterion [1] ，是衡量统计模型拟合优良性(Goodness of fit)的一种标准，由于它为日本统计学家赤池弘…

人工智能 2023年6月18日
0089
【文本分类】《融合后验概率校准训练的文本分类算法》

·阅读摘要：本文主要提出后验概率校准、负例监督两个创新点，提升了实验精度。·参考文献：[1] 融合后验概率校准训练的文本分类算法参考论文信息论文名称：《融合后验概率校准训练…

人工智能 2023年7月14日
0049
论文《基于结构光和双目视觉的三维重建系统研究》摘要

《基于结构光和双目视觉的三维重建系统研究》-赵焕谦-哈工大一、引言 1、结构光的原理和优点结构光通过向待测物体表面投射光栅条纹图案来给物体增加特征信息，使得图像处理时，能够提取…

人工智能 2023年6月22日
0061
chrome文字转语音（tts）

文章目录一、文章参考二、TTS (Text-To-Speech) 是文本转语音 * 2.1 概念 2.2 windows 操作系统 2.3 验证是否有Windows TTS（语…

人工智能 2023年5月25日
00135
error: Ignore above cudart dlerror if you do not have a GPU set up on your machine.

具体错误描述： W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dyn…

人工智能 2023年6月16日
00198
单细胞测序学习笔记（一）——细胞聚类和鉴定

使用的是10X Genomics 5k Peripheral blood mononuclear cells (PBMCs) from a healthy donor (v3 ch…

人工智能 2023年5月31日
0077
聊一聊mmdetection代码框架和自己对于目标检测的新理解

聊一聊mmdetection代码框架和目标检测文章目录聊一聊mmdetection代码框架和目标检测 * 一.为什么要写这篇文章二.关于图像识别任务的共性 – 1…

人工智能 2023年7月12日
0091
基于Geoda的经典空间回归模型（OLS）、空间误差模型（SEM）和空间迟滞模型（SLM）

引言最近在网上搜索有关空间误差模型的方法，看到的最多的就是https://editor.csdn.net/md/?not_checkout=1&spm=1001.2014…

人工智能 2023年7月14日
0064
《MATLAB语音信号分析与合成（第二版）》：第5章带噪语音和预处理

《MATLAB语音信号分析与合成（第二版）》：第5章带噪语音和预处理前言 1. 数据与函数路径设置 2. MATLAB仿真一：语音信号加高斯白噪声 3. MATLAB仿真二：语…

人工智能 2023年5月27日
0090
基于情感分析与主题分析的微博“双减”政策话题在线评论研究

文章目录前言一、数据来源二、数据爬取三、数据清洗四、基于BosonNLP词典的情感分析 * 4.1 整体倾向 4.2 积极/消极情绪词云图 4.3 情感语义网络图五、主…

人工智能 2023年7月16日
0079
从0开始的深度学习——【tensorflow】创建一个神经网络

我们用 tf.keras来创建神经网络：什么是 tf.keras?,简单地说就是tensorflow中已经帮你封装好的一些包，它的作用是可以帮你快速搭建网络模型。我们以创建一个能…

人工智能 2023年7月14日
0071
resnet18

前言在前篇vgg16之后，无法成功训练vgg16，发现是自己电脑可用的显存太低了，遂放弃。在2015 ILSVRC&COCO比赛中，何恺明团队提出的Resnet网络斩获…

人工智能 2023年7月13日
0061
5个必知必会的 Python 数据合并技巧

大家好，前不久在我们技术交流群有群友提到最近他面试阿里70万总包的数据岗位，对方问 Pandas的 5种数据合并的函数，结果他只答出了 2个。那么，究竟是哪五个呢？今天，我们…

人工智能 2023年7月7日
0077
Pandas 数据结构 – DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Seri…

人工智能 2023年7月7日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

detr目标检测算法源码详解

（1）位置编码

encoder部分

decoder部分

FFN层

大家都在看