自动驾驶感知新范式——BEV感知经典论文总结和对比（下）

2023年6月17日下午11:26 • 人工智能 • 阅读 78

本文承接上篇：

自动驾驶感知新范式——BEV感知经典论文总结和对比（上）_苹果姐的博客-CSDN博客bev感知经典论文总结和对比自动驾驶感知新范式——BEV感知经典论文总结和对比（下） https://blog.csdn.net/weixin_43148897/article/details/125940492?spm=1001.2014.3001.5501 ;

4 DETR3D引入3D位置编码：PETR[10]和PETRv2[11]（旷世科技，2022）

[10] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

[11] PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

代码：GitHub – megvii-research/PETR: [ECCV2022] PETR: Position Embedding Transformation for Multi-View 3D Object Detection

PETR论文指出，DETR3D虽然可以得到比较好的性能，但是存在三个问题：

1.bev空间与多视图之间的信息交互依赖于3D参考点估计的准确性，如果估计不准，可能无法投影到有效区域内，无法与2D图像进行交互；

2.只进行了object queries与3D参考点投影的2D点的特征之间的信息交互（前文提到），没有学习到全局信息；

3.由于需要采样和投影，DETR3D的pipeline相对复杂，影响推理的效率。

所以，PETR摒弃了采样和投影，直接计算2D多视图对应的3D位置编码，并加到2D图像特征中，再和3D的object queries进行交互，直接对3D object queries进行更新，大大简化了pipeline。DETR/DETR3D/PETR的对比图和PETR结构图如下所示：

PETR

这里3D特征编码借鉴了DSGN[12]，即将图像的视锥空间坐标(h, w, d)转到3D空间坐标(x, y, z)，再进行embedding，其中d代表均匀分布的深度，从预先设定的深度范围和间隔得到。这里的3D空间指车身的bev空间，所以需要同时使用内参和外参进行转换。因为每个视角对应的视锥空间坐标都相同（只有内外参不同），所以只需要计算一次，省去了DETR对参考点的多次投影过程。

[12] Dsgn: Deep stereo geometry network for 3d object detection.

得到3D特征编码后，与2D特征相加（代码中还加入了2D的正弦编码），然后与object queries做cross-attention。这里没有采样，使用的是全局attention。detection head部分与DETR相似。

PETRv2是在PETR的基础上进一步使用了时序特征、特征引导的3D位置编码和语义分割query，也是孙剑大佬离世前的项目（忧伤）。

PETRv2

在此之前，BEVformer(下文会提到）提出了使用时序bev进行特征增强和bev视角下语义分割的方案，PETRv2基于PETR的3D特征编码框架对此进行了进一步的探索。首先是增加了时序输入（如上图所示），将t-1帧的特征经过坐标转换后与t帧对齐（如图a左所示），并在batch维度与t帧拼接后输入编码器。其次，3D位置编码使用了特征引导的位置编码(FPE)（如图a右所示），而不是单纯依赖于3D空间坐标，这样可以提供深度信息。最后，增加了语义分割分支，将图像分割为一系列patch，编码得到segmentation queries，再与FPE得到的K,V进行交互，经过分割头得到分割结果（如图b所示）。PETRv2的时空特征融合框架实现了目前最好的目标检测和语义分割性能。

a 左：t-1帧到t帧的坐标转换右：特征引导的位置编码器（FPE）

b 语义分割分支框架

5 自顶向下稠密的BEV特征建模：BEVFormer[13] (上海AI Lab，2022）和BEVSegformer[14]（纽劢科技，2022）

以上介绍的模型主要分两类，一种是自底向上（LSS为代表）的稠密BEV特征建模，一种是自顶向下（DETR3D为代表）的稀疏BEV特征建模，还有一类是自顶向下的稠密BEV特征建模，比较有代表性的是BEVFormer和BEVSegformer。

[13] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

代码：BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs

[14] BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs

BEVFormer框架

BEVformer框架也是从DETR3D发展而来，也是从bev空间的3D query出发，得到参考点和采样点，再通过多相机的内外参投影到多视角2D图片上，和相应特征进行交互。但DETR3D的object queries是稀疏的，每个query代表一个可能的目标框，而Bevformer的bev queries是稠密的，大小为HWC，H,W为设定的bev特征尺度，每个query代表一个网格（grid）的查询，这样可以得到稠密的bev特征。

看代码会发现，BEVFormer的参考点和采样点的获取方式也和DETR3D有很大的不同，由于BEVFormer是稠密的，不需要额外去预测一些备选参考点，而是 直接得到固定的HWZ个参考点坐标（Z代表每个bev pillar中设定的不同高度的参考点个数），再将所有参考点投影到N个2D视图中，得到NHWZ个2D参考点，而 采样点（与2D参考点的offset） 是通过bev queries去预测的，每个bev query预测NZ*K个采样点，也就是直接从3D的query预测每个2D视图的offset。DETR3D就简单的多，直接从object queries预测N个参考点，再做多视图投影，并与多视图的2D参考点处的特征做交互，没有引入采样点。（看得头疼）

Bevformer另一个创新之处是时序特征融合（temporal self-attention），即用前一帧和当前帧的bev特征进行交互，获取当前帧缺失的时序特征，用来解决当前帧目标遮挡或者不稳定的问题，如下图所示。这里前一帧的特征根据已知的ego-motion转换为与当前帧的特征点位置对齐，但由于存在动态目标，难以建立前后两帧之间动态目标的特征联系，所以本模块采用的deformable attention中采样点的坐标偏移∆p与原生的deformable attention略有不同，是将query和上一帧的bev特征B’拼接后再进行采样点的预测。

BEVFormer效果示意

加入时序信息的deformable attention

上文的PETRv2也利用了时序特征，与BEVformer对比可参考PETR与DETR3D的对比，都是使用较固定的3D位置编码（PETRv2采用特征引导的位置编码）代替了内外参投影，在效率上有一定的提升，但PETRv2仍然没做稠密的bev特征建模，而是针对目标检测和语义分割单独设置不同的queries。另外参照BEVDet（自底向上的稠密bev特征建模）的优点，稠密的bev特征可以进一步进行特征提取和数据增强，而且更容易支持多种检测、分割、预测头，但损失一定的开销，所以各有优劣。

另一个相似的模型是 BEVSegformer，也是通过bev空间稠密的bev queries与多视角2D图像特征进行信息交互，但主要的不同点在于，BEVformer是通过固定的3D 参考点经过内外参投影到各个相机视角，而BEVSegformer 不依赖于3D坐标先验和多相机的内外参，直接从bev query得到多视角的2D参考点和采样点，多视角时间参数不共享，也就是说BEVSegformer 整个pipeline都是可学习的，没有内外参投影过程，可以作用于任意相机。整体框架和解码器可以参见下图。

BEVSegformer框架

BEVSegformer解码器示意

6 BEV多模态特征融合大杀器：BEVFusion[15]（MIT,2022）和FUTR3D[16](复旦、MIT、理想、清华等）

由于任何传感器都具有局限性，所以目前自动驾驶到落地量产阶段必须要做的就是多传感器融合。对于激光雷达和摄像头两种重要的传感器来说，传统的特征融合方法主要有两种：Lidar-to-camera和Camera-to-lidar。然而，前者损失了lidar的几何结构信息，难以用于3D目标检测等任务，后者损失了camera的语义信息，难以用于语义分割等任务，如下如所示。经过本文的介绍大家可以想到，将多种传感器都投影到bev空间是一个有效的特征融合方式，可以同时保留lidar的几何结构信息和camera的语义信息。 BEVFusion[15]即是一种有效的多模态特征融合框架。

特征融合方式对比

[15] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation

代码：GitHub – mit-han-lab/bevfusion: BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation

BEVFusion框架非常直观，照相机和激光点云数据经过各自的encoder进行特征编码后，camera特征采用LSS的自底向上的方法进行bev视角转换，lidar特征直接沿着z轴展平即得到bev特征，再将二者特征拼接后输入BEV encoder进行BEV特征编码，即得到融合后的BEV特征，来支持下游多任务。

BEVFusion框架

作者还做了效率的提升，提出由于camera产生的稠密伪点云规模较大（经lift处理后规模远远大于lidar特征），原始Bev pooling操作耗时占整个推理耗时的80%，所以采用 预计算和 GPU并行化提高bev pooling效率，实现bev转换时延从500ms减少到12ms（仅占整个推理过程的10%）。预计算指的是由于只要相机内外参一定，产生的3D伪点云坐标就是一定的，所以可以一次计算好并保存下来，不需要多次计算。GPU并行化简单地说是为每个bev grid开启一个线程进行并行处理。

另一个BEV特征融合框架 FUTR3D[16]是从DETR3D发展而来的（同一批作者），采用自顶向下的方式进行特征融合。

[16] FUTR3D: A Unified Sensor Fusion Framework for 3D Detection

FUTR3D

FUTR3D可以支持任意传感器，如2D摄像机、3D激光雷达、3D雷达和4D成像雷达等，只需要对不同的传感器配置不同的特征提取backbone即可。整体框架参照DETR3D，通过object queries得到3D reference points，再与多个传感器特征进行交互，最后同样适用匈牙利匹配的方式计算损失。感慨BEV的各种框架让原本很复杂的多视角图像特征融合、多传感器特征融合变得如此容易！

多种BEV框架的简单总结

由于本文介绍的多个BEV框架细节各不相同，难以区分，所以最后做一个简要的总结。

模型对比

喜欢本文欢迎关注交流讨论~

Original: https://blog.csdn.net/weixin_43148897/article/details/125940889
Author: 苹果姐
Title: 自动驾驶感知新范式——BEV感知经典论文总结和对比（下）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/632563/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python使用opencv（cv2）的undistortPoints()/undistort()函数对像素坐标/图像去畸变

1 cv2的安装 python下的opencv叫cv2，但是安装cv2并不是直接 pip install cv2，而是： pip install opencv-python 安装完…

人工智能 2023年6月18日
0067
使用同源建模预测蛋白质结构

什么是蛋白质？蛋白质是大的生物分子，负责执行生物体细胞内的大部分功能，包括对刺激作出反应、作为其他反应的催化剂、将分子从一个地方运输到另一个地方以及执行细胞信号传导。就像 DNA…

人工智能 2023年7月17日
0084
【进阶系列二】Series 和 DataFrame基本操作

本节主要介绍Series和DataFrame的基本操作，包括：Series 和 DataFrame创建、属性、索引及切片、数据修改（增删数据）、数学运算、排序排名、统计分析。目录…

人工智能 2023年7月7日
0060
【完美解决】OpenCVError: Insufficient memory (Failed to allocate xxx bytes) 报错的辛酸踩坑史

本人自制的图像处理软件在测试时发现图像太大时（超过3840*2160像素）大概率会因内存分配不足而直接崩掉，一翻操作查阅得知是x86架构可分配的内存太小了，应该升级到x64。以下是…

人工智能 2023年7月19日
0083
Pytorch安装以及Pycharm中无法导入torch包的问题

Pytorch安装以及Pycharm中无法导入torch包的问题我们在安装完Anaconda之后，去Pytorch官网 : https://pytorch.org/get-sta…

人工智能 2023年6月16日
0066
RuntimeError: “nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Int‘

Traceback (most recent call last): File "E:/MyWorkspace/EEG/Pytorch/Train.py", l…

人工智能 2023年6月16日
00129
如何选择 a 的子集DataFrame？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月8日
0061
Anaconda下安装tensorflow (windows系统)

因为之前Anaconda、python都已经装好了（可以看之前文章Anaconda超详细安装教程（Windows环境下）_fan18317517352的博客-CSDN博客（本人技术…

人工智能 2023年5月25日
0083
阿里资深架构师熬夜纯手写的238页微服务容器化开发实战笔记

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0045
2022年，校招计算机视觉算法岗，还要继续all in吗？

本文受众聚焦在本科大四以及硕士研究生的范畴。然后，本文只是提供一些切身的思考，并不一定全对，也会存在考虑不全的地方，希望读者能持开放包容的心态进行阅读😘 so，enjoy：劝退先…

人工智能 2023年5月28日
0098
ubuntu18.04卸载&与ubuntu20.04新装&配置输入法/ROS/CUDA/OPENCV

必须用f2进入bios将windows的启动顺序移动至第一顺位。否则删除ubuntu之后会无法开机随后用磁盘管理卸载ubuntu分区，用diskgenius软件卸载efi分区。用…

人工智能 2023年7月19日
0053
Python数据分析（四）——plot方法

Series和DataFrame都有一个用于生成图表的 plot方法，该方法是matplotlib中 plt.plot()函数的一个简单包装，使得创建可视化图形变得容易。 plot…

人工智能 2023年7月15日
0065
5 分钟将 TensorFlow 1 代码转换到 TensorFlow 2

跑代码戳这里👇: 5 分钟将 TensorFlow 1 代码转换到 TensorFlow 2 小伙伴问了：现在很多新的 GPU 对以前的 TensorFlow 1.x 的支持很…

人工智能 2023年5月25日
0060
Python CSV模块

Python CSV模块 a.CSV介绍 1、csv简介CSV (Comma Separated Values)，即逗号分隔值（也称字符分隔值，因为分隔符可以不是逗号），是一种常用…

人工智能 2023年7月17日
0099
YOLOv5-Shufflenetv2

YOLOv5中修改网络结构的一般步骤： models/common.py：在common.py文件中，加入要修改的模块代码models/yolo.py：在yolo.py文件内的pa…

人工智能 2023年7月9日
0067
【pyecharts | 颜色配置】关于pyecharts中自定义颜色问题详解

前言最近微信上经常有小伙伴问到 pyecharts颜色配置的问题，其实 pyecharts颜色配置很简单，不过由于可以配置的方式有点多，经常让人混淆，所以本文汇总一下在pyech…

人工智能 2023年7月15日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

自动驾驶感知新范式——BEV感知经典论文总结和对比（下）

4 DETR3D引入3D位置编码：PETR[10]和PETRv2[11]（旷世科技，2022）

5 自顶向下稠密的BEV特征建模：BEVFormer[13] (上海AI Lab，2022）和BEVSegformer[14]（纽劢科技，2022）

6 BEV多模态特征融合大杀器：BEVFusion[15]（MIT,2022）和FUTR3D[16](复旦、MIT、理想、清华等）

多种BEV框架的简单总结

大家都在看