FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

2023年6月17日上午5:58 • 人工智能 • 阅读 65

Paper name

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

Paper Reading Note

URL: https://arxiv.org/pdf/2104.10956.pdf

TL;DR

基于 Fcos 改进的 3d 检测方案，在 NeurIPS 2020 的 nuScenes 3d 检测比赛上取得了第一名成绩

Introduction

Fcos3d 方案
将 7-DoF 3D 目标解耦为 2D 和 3D 的属性
考虑对象的二维比例，将对象分布到不同的特征级别，并仅根据训练过程的投影三维中心进行分配
center-ness 根据三维中心重新定义为二维高斯分布，以适应三维目标公式

Dataset/Algorithm/Model/Experiment Detail

实现方式

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

Backbone：使用 resnet101，固定第一层的卷积参数从而减少显存消耗
FPN：生成特征层 P3-P7，每个特征层用于检测不同尺度的目标
Detection Head：包含4个共享参数的卷积层和 small heads 用于不同的 targets 预测；回归分支需要较高的解耦程度，即每个子 targets 都设置一个 heads，所有回归的目标如上图所示

fcos3d 设计了一种新的旋转编码方案，即将360°角度回归解耦为方向的二分类和180°角度回归，在角度正确性上超过了 CenterNet

loss 设计
分类使用 focal loss
回归基本上使用 smoothL1 loss，方向分类和 center-ness 使用 binary cross entropy 损失
总损失
center-ness loss 设计
因为这里回归的是 3d 中心点，所以如下所示使用以 3D 中心投影点为远点的 2D 高斯分布作为 center-ness 的目标，然后再以此为真值计算 BCE loss
测试阶段
class score 和 center-ness 相乘作为预测的置信度，然后在 bird view 中进行 rotated NMS 得到最终的的结果
训练的样本分配问题
gt 的分配基本和 fcos 一样，将 3D 的gt框投影到2D平面上，取最大外接矩形作为 2D gt 框
之前 fcos 使用 area-based 方法解决正样本分配的歧义性问题，即当两个样本都符合要求时选尺寸小的样本；作为认为这种方式对大目标不友好，提出了一种新的 dist-based 方案提升了精度，即挑选与中心更近的样本
除了上面的样本分配方法，还提出了一种基于 3d-center 来确定正样本的方法，即只有和中心点距离小于 1.5xstride 的样本算作正样本
对每个回归分支的结果增加一个 scale 变换能涨点，该 scale 参数设置为网络可学习

; 实验结果

评测指标

使用在地平面上的 2D center 与 gt 的距离作为 threshold，避免使用 IoU 作为 threshold 对物体size 和朝向敏感的问题

其中 C 代表所有类别，D代表4个距离阈值： 0.5m,1m,2m,4m
True Positive metrics
Average Translation Error (ATE)： 2d 下的中心距离差距（m）
Average Scale Error (ASE)： 1-IoU，IoU为对齐 translation 和 orientation 后计算的值
Average Orientation Error (AOE)：smallest yaw angle difference（radians）
Average Velocity Error (AVE)：速度差异的 L2-Norm (m/s)
Average Attribute Error (AAE)：1−acc，其中 acc 指代属性分类准确度
NuScenes Detection Score（NDS）
NuScenes 官方提供的更全面的指标

; 对比精度

消融实验

看一看出depth loss、dist-based target assign，Stronger backbone，DCN，Finetune w/ depth weight=1.0 是涨点程度较大的技巧

; 可视化

Thoughts

部分比赛用的涨点 trick 还是很实用的，一些 fcos 的结构也对 3d 检测任务进行了适配，思想值得借鉴

Original: https://blog.csdn.net/kebijuelun/article/details/124607167
Author: kebijuelun
Title: FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628896/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LSTM结合一维CNN使用的基本理解

结合一维 CNN 和 RNN 来处理长序列已经十分常见，然而这对组合对身为小白的我造成了一定的困扰。要知道CNN各通道的输出可是平行的，并不存在什么先后顺序，然而RNN却要求的输入…

人工智能 2023年7月14日
0039
毕业设计深度学习机器视觉人脸识别系统 – opencv python

文章目录 0 前言 1 机器学习-人脸识别过程 * 人脸检测人脸对其人脸特征向量化人脸识别 2 深度学习-人脸识别过程 * 人脸检测人脸识别 – + Metri…

人工智能 2023年7月20日
0072
NVIDIA Jetson YOLOv5应用与部署

前言在NVIDIA Jetson AGX Xavier 部署YOLOv5的深度学习环境，然后能正常推理跑模型。首先介绍在NVIDIA Jetson 安装类似于Conda的虚拟环…

人工智能 2023年6月17日
0082
【论文解读–足式机器人平衡控制VMC】虚拟模型控制（三通道法）Virtual model control

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加TODO:写完再整理文章目录系列文章目录前言一、跳跃高度控制（Hopping Heigh）二…

人工智能 2023年6月10日
0079
【DETR 论文解读】End-to-End Object Detection with Transformer

目录前言一、整体架构二、基于集合预测的损失函数 * 2.1、二分图匹配确定有效预测框 2.2、损失函数三、前向推理四、掉包版代码五、一些问题 Reference 前言 …

人工智能 2023年7月10日
0053
【youcans 的 OpenCV 例程200篇】170.图像分割之K均值聚类

【OpenCV 例程200篇】系列，持续更新中…【OpenCV 例程200篇总目录-202205更新】【youcans 的 OpenCV 例程200篇】170.图…

人工智能 2023年5月31日
0078
OpenCV中的图像处理 —— 改变颜色空间+图像几何变换

OpenCV中的图像处理 —— 改变颜色空间+图像几何变换这一部分主要介绍OpenCV图像处理中的改变颜色空间和图像的几何变换，颜色空间的改变应用非常广泛，在处理图像的实际问题中…

人工智能 2023年6月20日
0073
YOLO7 姿势识别实例

文章目录 1. 预训练模型 2. 测试代码 3. 运行代码 4. 问题上文搭建了YOLO7开发环境，并进行了物体定位测试。参见：YOLO7环境搭建、代码测试。本文将介绍如何使用Y…

人工智能 2023年7月5日
0073
MATLAB学习笔记使用马氏距离的RGB图像聚类

1、概述 Mahalanobis 距离分类广泛用于聚类。该方程有一个协方差矩阵，它作用于类的变化以创建相似性。在 Matlab 中，我们有一个函数 ‘mahal&#8…

人工智能 2023年5月31日
0063
【ML】自动编码器结合逻辑回归用于分类预测(数据+代码详细教程)

自动编码器（aotoencoder）是一种神经网络，可用于学习原始数据的压缩表征。一种自动编码器由编码器（encoder）和解码器（decoder）两个子模型组成。编码器压缩输入，…

人工智能 2023年7月2日
0071
day2 数据分析思维课

1，数据分析多元思维多元思维模型分为三大块：中观（专业度，逻辑性，价值点），微观（有效沟通能力和快速发散收敛能力），宏观（能够将当前业务与实际社会热点，行业风口联系起来，提前预测…

人工智能 2023年7月16日
0037
pytorch 实现逻辑回归

目录 1. 导入库 2. 定义数据集 2.1 生成数据 2.2 设置label 3. 搭建网络+优化器 4. 训练 5. 绘制决策边界 6. 代码导入库机器学习的任务分为两大类…

人工智能 2023年6月15日
0091
DataFrame 与 json 格式转换

json 格式转为 dataframe from pandas.io.json import json_normalizeimport pandas as pdimport jso…

人工智能 2023年7月6日
0045
强化学习—— 经验回放（Experience Replay）

强化学习—— 经验回放（Experience Replay） 1、DQN的缺点 * 1.1 DQN 1.2 DQN的不足 – 1.2.1 经验浪费 1.2.2 相关更新…

人工智能 2023年7月27日
00103
Python Pandas Series DataFrame 索引切片

一、直接索引与&#…

人工智能 2023年7月6日
0070
基于R语言的数据分析报告

基于R语言的数据分析报告（很多同学私信反馈通过kaggle没办法下载数据集，我把数据集上传到百度云供大家取用，链接:https://pan.baidu.com/s/1S48WWm…

人工智能 2023年7月15日
0039

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

TL;DR

Introduction

Dataset/Algorithm/Model/Experiment Detail

实现方式

; 实验结果

评测指标

; 对比精度

消融实验

; 可视化

Thoughts

大家都在看