DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

2023年7月10日上午11:32 • 人工智能 • 阅读 84

原文链接：https://arxiv.org/pdf/2203.08195.pdf

1.引言

目前的方法主要基于两种融合方式：早期融合（融合数据）和中期融合（融合特征）。

但是，由于数据增广通常是针对单一模态的；且一个点云体素可能对应多个图像像素，这些像素特征不是对3D检测同等重要的。因此，寻找图像和点云之间的特征对应关系是一个挑战。

本文提出 InverseAug和 LearnableAlign进行有效的中期融合。前者反转与几何相关的数据增广，然后使用相机和激光雷达的原始参数关联两个模态；后者使用交叉注意力动态学习两模态特征关系。

本文的多模态检测插件被称为 DeepFusion，与现有的基于体素的检测方法兼容并能端到端训练。

实验表明深度特征对齐是多模态3D检测的关键，且DeepFusion对输入损坏和分布外样本更加鲁棒，对远距离物体的检测最有帮助。

3.DeepFusion

3.1 深度特征融合的流程

如下图所示，过去的方法如PointPainting或PointAugmenting使用额外的任务训练图像特征提取器，将图像特征附加到激光雷达点云上进行基于点云的检测。这种非端到端学习的方式会导致domain gap、需要额外标注、引入额外计算，以及（对于3D检测任务的）非最优特征提取。此外，这些方法中图像特征随着点云一起被点云方法处理（如体素化），但点云处理方法可能不适合处理图像特征。

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

本文通过在激光雷达点云的特征层面融合图像特征，并将图像特征提取器与网络其余部分一起训练，以解决上述问题。如下图所示，图像和激光雷达点云分别送入各自的特征提取器得到特征，融合后输入激光雷达检测网络的剩余部分进行3D检测。这样高分辨率、富含上下文信息的图像特征不会被体素化转换到BEV下，且实现了端到端训练。

但缺点是特征层面的融合使得对齐不如数据层面的融合直接，在各模态上分别进行的数据增广也会给融合带来困难。

3.2 对齐质量的影响

仅对激光雷达点云进行旋转数据增广，而不对图像进行任何数据增广。当旋转角增大时，多模态融合带来的性能增益下降。因此对齐对多模态融合很重要。

3.3 提高对齐质量

InverseAug：通常会在训练时使用数据增广来避免过拟合并提高性能，但图像和点云独立的数据增广方法会导致对齐困难。如下图所示，首先存储几何数据增广的增广参数，融合阶段的3D关键点（可以是任何3D坐标，如激光雷达点或体素中心等等）根据该参数进行逆向增广得到原始坐标，再在图像中寻找相应的像素。注意该方法也适用于图像数据增广和多模态数据增广。

LearnableAlign：体素与像素的对应是一对多的关系。由于各像素的重要性不同，如前景像素的重要性可能大于背景像素，直接平均各像素特征可能不是最优方案。本文使用交叉注意力动态捕捉模态之间的相互关系（如图1所示）。

LearnableAlign的输入包含一个体素及其对应的

个像素特征，先分别使用3个MLP将体素特征转换为查询

，图像特征转化为键

和值

。然后计算查询与键的内积，得到该体素与

个像素之间的相关性，用softmax归一化后，该相关性用于加权聚合 DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

，最后通过全连接层并与体素特征拼接，输入到3D检测网络中。

4.实验

数据集为Waymo Open。

4.1 实施细节

LearnableAlign：与动态体素化结合实现。

InverseAug：训练时依次使用下列数据增广：随机旋转、全局缩放、全局平移噪声、随机翻转、Frustum-Dropout、随机丢弃激光点。在融合阶段，反过来（包含顺序和增广方向）应用几何增广方法将3D关键点转换到原始坐标下。

4.3 DeepFusion的通用性

本文将DeepFusion插入各激光雷达检测网络，得到了一致的性能提升。

4.4 性能提升的来源

本文比较了不同距离下检测性能的提升情况，其中远距离物体的检测精度提升最大，这可能是因为远处激光雷达点的稀疏性被高分辨率图像信号补偿。

可视化注意力图可以发现，模型关注有判别力的区域和物体边缘，因此高分辨率相机信号可以帮助识别和预测物体边界。

4.5 InverseAug和LearnableAlign的影响

在激光雷达检测模型的基础上，引入两者均能促进检测，且InverseAug的影响更大。

4.6 与其余融合方法的比较

与输入融合（数据融合/早期融合）和晚期融合（分别体素化图像和点云特征后拼接）相比，本文方法性能最佳。

4.7 鲁棒性

对损坏输入的鲁棒性：相比单一模态方法，使用DeepFusion的多模态方法对激光噪声和像素噪声的鲁棒性远远更强。

对分布外（OOD） 数据的鲁棒性：使用DeepFusion的多模态方法在分布外数据上的性能提升（基准为单一模态方法）比分布内数据更高。

A.附录

A.2 3D检测器的实施细节

基本方案的改进：本文通过改进PointPillars、CenterPoint和3D-MAN中的体素特征编码器（全连接层变为MLP；使用神经结构搜索（NAS）选择最佳超参数）和激活函数（ReLU变成SILU），大幅提高了检测性能。

注意此部分与DeepFusion无关。

训练细节：使用两个难度的数据进行训练，并使用不确定性损失以容忍模型以较低的精度检测低置信度物体。

提交模型的细节：还通过拼接前

帧的点云（为防止过拟合，每一帧以一定的概率被丢弃，该方法称为DropFrame）来组合过去帧信息；测试时，使用模型集成并通过加权框融合（WBF）进行测试时增广（TTA）。

A.3 与大型单一模态方法的比较

通过改变伪图像/体素分辨率来改变模型延迟。在相同的延迟下，DeepFusion的方法要优于单一模态方法；且即使增大单一模态方法的模型尺度，性能上限也比此时的DeepFusion低。

Original: https://blog.csdn.net/weixin_45657478/article/details/126355439
Author: byzy
Title: DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682704/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络——Python实现BP神经网络算法（理论+例子+程序）

采用BP算法的多层感知器是至今为止应用最广泛的神经网络，在多层感知器的应用中，以图3-15所示的单隐层网络的应用最为普遍。一般习惯将单隐层前馈网称为三层感知器，所谓三层包括了输入层…

人工智能 2023年7月3日
0078
从零学习目标检测，YOLOv3代码学习（1）

文章目录 * – 1 写在前面 – 2 文件夹分析 – + assets文件夹 + config文件夹 + data文件夹 + pytorchy…

人工智能 2023年6月18日
0083
机器学习鸢尾花分类的原理和实现（一）

机器学习鸢尾花分类的原理和实现（一）前言：鸢尾花数据集是机器学习中的经典小规模数据集。通过查阅资料和视频进行学习，将整个实验的学习心得和实验过程分享，希望对喜爱机器学习并入门…

人工智能 2023年6月16日
0094
深度学习一(PyTorch物体检测实战)

深度学习一(PyTorch物体检测实战) 文章目录深度学习一(PyTorch物体检测实战) * 1、浅谈物体检测与PyTorch – 1.1、深度学习与计算机视觉 +…

人工智能 2023年7月19日
0053
知识分享：数据分析的6大基本步骤

数据分析一直是一个老生常谈的话题。目前，很多企业都已将数据分析技术运用到了日常的商业活动中，但是有些企业还是在观望。今天，小编将从数据分析的最基本概念和数据分析的基本步骤两个方面…

人工智能 2023年6月11日
0090
【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

文章目录 1.YOLO输入端 * 1.1 Mosaic数据增强 1.2 自适应锚框计算 1.3 自适应图片缩放 2.YOLO总体架构图 * 2.1 BackBone –…

人工智能 2023年6月23日
0086
Labelme安装以及使用教程

官网教程写的比较详细，但是因为看惯了中文，还是喜欢看中文教程，所以就参考了网上写的教程，顺便也把出现的问题记录一下。官网教程 1.安装Anaconda, 安装过程就不赘述了，可以自…

人工智能 2023年7月6日
00101
【目标检测】YOLO系列总结

L e a k y − R e L U Leaky-ReLU L e a k y −R e L U:不会直接让负数为0，但会衰减负数的输出 y = { x x > 0 0…

人工智能 2023年7月12日
0099
pytorch保存训练模型参数并实现继续训练

最近的想法是在推荐模型中考虑根据用户对推荐结果的后续选择，利用已训练的offline预训练模型参数来更新新的结果。简单记录一下中途保存参数和后续使用不同数据训练的方法。简单模型和…

人工智能 2023年6月17日
0092
ROS2构建工具colcon介绍

使用colcon构建包一般情况下在工作空间目录下构建，它会创建与src目录平级的下列目录： ● build目录：是存储中间文件的目录，会为每个软件包在build目录中创建一个子目…

人工智能 2023年6月2日
0075
web前端期末大作业网页设计与制作 ——汉口我的家乡旅游景点 5页HTML+CSS+JavaScript

家乡旅游景点网页作业制作网页代码运用了DIV盒子的使用方法，如盒子的嵌套、浮动、margin、border、background等属性的使用，外部大盒子设定居中，内部左中右布局，…

人工智能 2023年6月27日
0058
【资损】业务产品分析资损防控规范

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

人工智能 2023年6月29日
0084
动手学深度学习（五十）——多头注意力机制

文章目录 * – 1. 为什么用多头注意力机制 – 2. 什么是多头注意力机制 – 3. 多头注意力机制模型和理论计算 – 4. 动…

人工智能 2023年6月23日
0072
知识图谱（一）—— 简介

个人认知，仅供参考，欢迎大佬们批评指正！知识图谱简介一、概述从2012年，谷歌提出知识图谱概念以来，知识图谱在AI领域变逐步处于一个掌上明珠的地位，尤其近几年，知识图谱火的…

人工智能 2023年6月10日
0079
聚类(一)——K-Means算法

聚类是一种无监督学习。与分类不同的是，分类的数据集都是有标签的已经指明了该样本是哪一类，而对于聚类其数据集样本是没有标签的，需要我们根据特征对这些数据进行聚类。K-Means算法是…

人工智能 2023年5月31日
00106
深度学习中图像增强技术的综合综述

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月24日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31