BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记

2023年7月10日上午5:56 • 人工智能 • 阅读 63

经过主干也就是卷积神经网络的特征提取后，提取到的高级特征首先会经过一个1×1的卷积，该卷积的作用就是降低通道数，将由C变为d（由2048变为d）。经过该卷积后的新特征我们表示为z0∈ Rd×H×W
由于编码器需要的输入是一个序列，所以需要改变其空间维度，也就是从d×H×W变为d×HW，于此同时，额外的固定位置编码也需要被输入。

; Transformer decoder

多头注意机制由N个head组成，所以有N个通道数为d的嵌入。与原始transforming不同的是，在DETR模型中，每个解码器并行的处理N个输入，也就是说在解码器的地方会有N个不同的object queries被输入（与目标跟踪不同之处，目标跟踪中此处的输入为搜索图片）。解码器将N个对象查询转换成输出嵌入。然后通过前馈网络将它们独立解码成盒坐标和类别标签，从而产生最终预测。

Prediction feed-forward networks (FFNs)

最终预测由一个具有ReLU激活函数和隐藏维数d的三层感知器和一个线性投影层计算。FFN根据input image预测盒子的归一化中心坐标、高度和宽度，线性图层使用softmax函数预测分类标注。因为我们预测一组固定大小的N个边界框，其中N通常远大于图像中感兴趣对象的实际数量，所以使用额外的特殊类别label∅来表示在一个槽内没有检测到对象。这个类在标准对象检测方法中扮演类似于”背景”类的角色。

Auxiliary decoding losses

DETR在每个解码器层后添加预测FFNs和Hungarian loss。所有预测FFNs共享它们的参数。我们还使用了额外的共享归一化层来归一化来自不同解码器层的预测FFNs的输入。

QUOTE

[DETR]
We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor generation that explicitly encode our prior knowledge about the task.

[SwinTrack]
Starting from 2020, Transformer has been vastly introduced to the vision community. DETR attracted a lot of attention. By modeling the object detection as a direct set prediction problem, DETR removes most hand-crafted processes and reaches a state-of-the-art comparable performance without domain knowledge. Later, the advancing model of DETR and many other transformer-based models were proposed to the image and video tasks.

Original: https://blog.csdn.net/qq_41442511/article/details/124315725
Author: 菜菜子hoho
Title: BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682217/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jetson AGX Xavier实现TensorRT加速YOLOv5进行实时检测

一、前言由于YOLOv5在Xavier上对实时画面的检测速度较慢，需要采用TensorRT对其进行推理加速。接下来记录一下我的实现过程。二、环境准备如果还没有搭建YOLOv5…

人工智能 2023年6月16日
0072
PIAFusion

PIAFusion * – 1. 论文基本信息 – 2. 摘要 – 3. 背景 – + * 现有方法的不足 * 提出新方法 &#82…

人工智能 2023年7月28日
0073
记录使用tensorflow时的一些报错

ImportError: cannot import name ‘abs’ 问题在于，tensorflow和protobuf发生了冲突。先删掉tensor…

人工智能 2023年5月25日
00102
PaddleSpeech 音频和视频惊艳众人的准确率

1、关于视频抽取固定采样率音频：ffmpeg -i test2.mp4 -f wav -ar 16000 test3.wav -i .[迅雷下载xunbo.cc]爱情公寓第二季EP…

人工智能 2023年5月27日
0078
DGL-KE使用

DGL-KE是亚马逊开发的基于DGL 的知识图片嵌入库，提供了TransE,TransR等一系列嵌入方法，可以使用命令行的方式快速得到知识图谱中实体和关系的嵌入。我遇到一个需求，…

人工智能 2023年6月1日
0089
机器学习中监督学习的分类模型（入门）

不是概要：在机器学习的入门中，作者觉得最重要的是掌握各个模型的特点。但在这之前，得先了解一下一些比较基础的概念，不想看的大家可以跳到后边，如果有发现问题希望大家能在评论区指正 (｀…

人工智能 2023年7月2日
00110
Python数据分析与应用_从数据获取到可视化题库及答案

*填空题 *判断题 *选择题 *简答题 *填空题 *判断题 *选择题 arr_2d = np.array([[11, 20, 13],[14, 25, 16],[27, 18, 9…

人工智能 2023年7月4日
0082
1. C语言的开篇（一）-HelloWorld

include int main(int argc, int *argv) printf(“Hello world”); 对于下面的问题是否能够清晰回答上来…

人工智能 2023年6月4日
00120
pytorch之池化层

在本节中我们介绍池化（pooling）层，它的提出是为了缓解卷积层对位置的过度敏感性二维最大池化层和平均池化层同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口…

人工智能 2023年7月22日
0075
Python学习记录使用tensorflow 2.8 完成猫狗识别使用keras构建CNN神经网络

猫狗识别项目数据分为标记数据和未标记数据 [En] Project data is divided into tagged and untagged带标签：25000张不带标签：…

人工智能 2023年5月23日
0084
利用Python OpenCV进行圆孔检测、计算半径、圆心到四边距离

先上最终检测视频： OpenCV实时检测圆孔本文重在实操，就不赘述背景意义等内容。给定问题：假如有一个配件，此时需要检测配件上的圆孔坐标、半径、个数、圆孔到配件四边的距离。由…

人工智能 2023年6月17日
0094
数据分析–预测医疗费用

背景不同年龄性别的人医疗费用数据集，患者的治疗费用由诸多因素决定。如诊断、居住城市、年龄等。该文章采用线性回归、多项式回归、随机森林三种模型进行患者医疗花费的预测数据来源数据来源…

人工智能 2023年6月19日
0091
【 BlockChain 】零知识证明

【 BlockChain 】零知识证明一、零知识证明起源 “零知识”的概念最早在80年代由麻省理工学院的研究人员 Shafi Goldwasser，Sil…

人工智能 2023年7月30日
0074
comp3411辅导week9神经网络

对本文有疑问可以加微信 Tutor_0914联系。也可查看个人辅导网站了解详情： tutoryou辅导详情文章目录 * – Neurons – Biological …

人工智能 2023年7月14日
0065
【python二级-练习题】

python江湖 1、求长方形面积 * 题目描述： – 代码如下： 2、随机密码验证 * 题目描述： – 代码如下： 3、信息分配表（字典） * 题目描述：…

人工智能 2023年7月5日
0088
解决：RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0； 2.00 GiB total capacity； 1

1. 问题 2. 分析 3. 解决问题训练模型时报错：RuntimeError: CUDA out of memory. Tried to allocate 128.00 Mi…

人工智能 2023年7月14日
00129

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

BMVC-2021-DETR: End-to-End Object Detection with Transformers 阅读笔记

目录

大家都在看