BEVFormer 论文笔记

参考代码:BEVFormer
paper:BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

  1. 概述

导读:这篇文章介绍了一种基于transformer的bev特征提取算法,在该算法中包含了对空间域和时间域信息的融合,对应的模块便是spatial cross-attention和temporal self-attention,这样便可以高效感知车辆周围环境以及利用前后帧信息处理遮挡情况。通过建立3d bev grid在spatial和temporal维度的信息索引,文章构建了一种适合多任务的bev特征提取方法。

在文章的bev特征提取方案中需要解决的是bev grid(3D)在多视图图像中的空间索引,以及当前帧bev特征与之前帧中bev特征的关联,也就是下图中展示的spatial和temporal维度信息如何去索引:

BEVFormer 论文笔记
对于spatial维度上的特征索引,可以通过3D bev grid中的点从3D到2D的投影获得reference points,之后在reference points的基础上添加具有偏移属性deformable attention操作去感知local区域的特征。对于temporal维度上的索引,可以通过类似RNN的机

Original: https://blog.csdn.net/m_buddy/article/details/125650137
Author: m_buddy
Title: BEVFormer 论文笔记

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/688887/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球