[paper] lift,splat,shooting 论文浅析

2023年6月24日下午10:07 • 人工智能 • 阅读 71

Splat: Pillar Pooling（支柱池）

Shoot: Motion Planning

03 实验和验证

Title:《 Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》

cs.CV 2020；

Github: here

00 前言

目前的计算机视觉算法任务，基于输出结果是否与输入图像在同一个参考系下，可以分为两类：

• 预测结果与输入不在同一个参考系：分类

• 预测结果与输入在同一个参考系：目标检测、语义分割、全景分割

从这个角度来看，基于BEV的自动驾驶感知算法，属于前一个类别，即预测结果与输入不在同一个参考系，最终得到的BEV结果属于本体车辆参考系，而图像属于相机参考系，一般的做法是，通过算法模型，把属于多个参考系下的多模态数据，进行融合预测，形成在BEV参考系下的预测结果。

针对多参考系转换问题，又引出了很多研究方法。例如，可以扩展传统单视图的范式，把它扩展到多视图模式上。具体来说，针对来自n个相机的图像数据，我们使用一个单视图检测器，针对每个相机的每张图像数据进行检测，然后将检测结果根据对应相机的内外参数，转换到车辆本体参考下，这样就完成了多视图的检测。

但是这样的简单 后处理方法是有问题，比如，我们可能想要通过训练结果反馈，进行反向传播，并进一步调整对应相机的输入，这一步是无法完成，因为上面的转换是单向的，也就是说，我 们无法反向区分不同特征的坐标系来源，因此我们无法轻易的使用一个端到端的模式来训练改善我们的自动感知系统。

01 创新点

本文的做法是通过，将二维图像特征生成3D特征（这一步对应论文中的”Lift”操作），然后把3D特征”拍扁”得到BEV特征图（这一步对应论文中的”Splat”），最终在BEV特征图上进行相关任务操作（这一步对应于”Shooting”）。具体来说，二维图像特征生成3D特征这一步使用了”视锥”点云的操作，如下图所示：

就是预测了一个深度值分布，提取的特征c，然后将两种进行外积操作，实现了增维。Splat操作则是使用了一种特殊的”求和池化”操作，实现降维。最后的Shooting，则是将预测的一组轨迹投射出来，选取最好的轨迹作为预测结果。

整体效果

02 算法细节

首先构造矩阵：

;

是输入的图像，

;

是相机外参，

;I_{k}是相机内参，

;现在的目的是寻找BEV坐标下场景的光栅化表示 y；, [paper] lift,splat,shooting 论文浅析

;内参和外参矩阵共同定义每一个相机从基准(ego-vhicle坐标系)坐标（x,y,z）到本地像素坐标（h,w,d）的映射，没有使用任何关于深度的传感器；

Lift:潜在深度分布：

对相机图片单独处理，将对每一个图像提取的feature map 从的2D的图像坐标系统转换成以车辆中心为原点的3D坐标系中，这个转换参数在相机之间是共享的；单目传感器融合的难点在于需要将深度信息转换为参考帧坐标，但与每个像素的depth是未知的。本论文提出的解决方案是为每个像素生成所有可能深度的表示。（为每一个模型生成离散的深度值，模型训练阶段像素自行选择合适的深度值）。

注:怎么为每个像素定义一堆离散的深度值？因为2D图像中的每个像素点可以理解成一条世界中某点到相机中心的一条射线，现在不知道的是该像素具体在射线上位置(也就是不知道该像素的深度值)。官方代码中是这么做的:在距离相机5m到45m的视锥内，每隔1m有一个模型可选的深度值(这样每个像素有41个可选的离散深度值)。

图像的2D特征是

维度的，也就是每一个像素点的特征都是c维的，然后每一个像素点具有d维的深度分布，点的特征就由这c维图像特征和d维深度特征联合表示，也就是每一个点的特征是一个d,c,h,w的四维向量

图像中每一个像素点对应着世界坐标中的一条射线，那么这个像素点对应的深度应该是多少呢，按照１米的距离划分格子，用概率值表示该像素的深度值处于这个１米的格子内部的概率，用一个D维的向量经过softmax来表示，D表示4-45米范围内以1米为间隔的距离，也就是 D=41，这样的话Ｄ上每个位置的值就代表了该像素处于这个深度范围的概率值。

最后，得到的是一个 视锥点云，这个视锥是以相机光心为中心，长为w/16，宽为h/16，高从4-45的一个立方体，然后通过相机外参将这个立方体转换到BEV视图下；之后从视锥中提取图像的feature map。

Splat: Pillar Pooling （支柱池）

目前已经得到了像素的2D像素坐标以及深度值，再加上相机的内参以及外参，即可计算得出像素对应的在车身坐标系中的3D坐标。

将多个相机中的像素点投影在同一张俯视图中，先过滤掉感兴趣域(以车身为中心200*200范围)外的点。但是在俯视图中同一个坐标可能存在多个特征，这里有两个原因:

是单张2D图像不同的像素点可能投影在俯视图中的同一个位置,
是不同相机图像中的不同像素点投影在俯视图中的同一个位置，例如不同相机画面中的同一个目标。对于同一个位置的多个特征，作者使用了sum-pooling的方法计算新的特征，最后得到了200x200xC的feature，源码中C取64。

视锥点云转换到bev下后，每个点都会被分配到bev的柱子里面，这个柱子就是bev空间每个grid都对应一个[dx,dy,无限高]的立方体，这样每一个grid的特征就是在里面所有点对应的图像特征求和。”lift-splat”框架在Figure 4.

视锥体池化累积求和技巧

该模型使用的是Pillar的累积求和池化，”累积求和”是通过bin id 对所有点进行排序，对所有特征执行累积求和，然后减去 bin 部分边界处的累积求和值来执行求和池化。无需依赖 autograd 通过所有三个步骤进行反向传播，而是可以导出整个模块的分析梯度，从而将训练速度提高 2 倍。该层被称为”Frustum Pooling”，因为它处理将 n 个图像产生的截锥体转换为与摄像机数量 n 无关的固定维度 C × H × W 张量。

过程示意图：

Shoot: Motion Planning

Lift-Splat模型的关键是可以仅从图像角度实现端到端的运动规划，在测试时，使用推断的成本图进行规划，可以通过”拍摄”不同的轨迹，对其成本进行评分，然后根据最低成本轨迹[25]进行行动，在section 5.6上有详细的介绍；

03 实验和验证

本文在nuScenes和Lyft数据集上，对本位提出的模型算法进行验证，分别对以下几个方面做实验比较：

baseline比较；分割结果比较；鲁棒性比较；与LiDAR算法进行比较；

baseline and segment

robustness

检测当某个位置相机缺失时，语义分割指标IOU分数的变化，正常情况下的IOU是”full”,可以看出”CAM BACK “相机缺失时对鲁棒性的影响是最大的，也是因为nuScenes数据集中后置相机拥有很大的视野的原因导致的。之后训练的时候使用6个相机中的4个相机，在测试的时候分别增加不同位置的相机，发现测试的性能是提升的。

Original: https://blog.csdn.net/weixin_51449137/article/details/126662391
Author: 是安澜啊
Title: [paper] lift,splat,shooting 论文浅析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649843/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

conda安装指定版本TensorFlow

文章目录 * – 一、系统环境 – 二、安装步骤一、系统环境操作系统：Windows7 64位，Python环境：Python3.7；conda 4.1…

人工智能 2023年5月23日
0071
数据挖掘实验二：聚类技术—复杂网络社团检测

实验二：聚类技术—复杂网络社团检测实验内容导入karate.gml中的空手道网络数据；根据网络结构特征给出节点相似性度量指标；采用层次聚类过程对网络数据进行聚类；计算模…

人工智能 2023年7月17日
0054
@WebFilter两种使用方法和失效解决方案

1、直接使用过滤器不会生效@WebFilter(urlPatterns=”/dd/*”, filterName=”loginFilter&#82…

人工智能 2023年6月28日
0099
Repvgg详解及其实现（pytorch）

论文下载地址：https://arxiv.org/abs/2101.03697 官方源码（Pytorch实现）：GitHub – DingXiaoH/RepVGG: R…

人工智能 2023年7月21日
0062
【工程伦理】脑机接口技术中的伦理问题分析

目录 1、引言 2、主要伦理问题讨论参考文献 1、脑机接口技术介绍脑机接口_百度百科脑机接口（Brain Computer Interface，BCI [4] ），指在人或动…

人工智能 2023年7月26日
0075
编译原理四种lr文法的判断（LR(0),SLR(1),LALR(1),LR(1)）

关系：LR(0) 1.判断LR(0)文法：看项目中是否有归约-归约和移进-归约冲突。如果无冲突则是LR(0)文法（如果是LR(0)文法则四种都是）；如果有冲突则不是LR(0)文法…

人工智能 2023年6月15日
00133
利用node2vec和k-means对图数据进行节点聚类分析

目录 1.k-means 2.karate_club_graph 3.davis_southern_women_graph 4.总结 node2vec代码实现及详细解析中我们详细…

人工智能 2023年6月2日
0074
Python快速刷题网站——牛客网数据分析篇（二）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主 pytho…

人工智能 2023年6月19日
0072
样本不均衡及其解决办法

1 什么是类别不均衡类别不平衡（class-imbalance），也叫数据倾斜，数据不平衡，是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中，我们经常…

人工智能 2023年7月1日
00118
Anaconda如何安装库（包）？

博主的专业是地理信息，并不是编程这个专业的，但是地理信息这个专业就很难受，想学好这个专业，像做一些科研方面的工作，就必须用到编程的知识。并且平时老师也会留一些作业要用到代码来完成，…

人工智能 2023年7月4日
0059
模仿CSDN黑暗帝国动态背景的vue项目(附源码)

开发工具：Webstorm技术栈：vue、html、canvas实现步骤：（1）在这里的项目我是用VueCli3脚手架进行搭建的。（2）关于动态背景的源码则是在github找的源码…

人工智能 2023年6月28日
0072
【Opencv图像处理】透视与仿射变换

C++透视与仿射变换透视与仿射变换 Opencv代码 * 仿射变换 – 代码透视变换 – 代码透视与仿射变换 这&#x7…

人工智能 2023年6月21日
0086
月薪10.8K，从销售客服转行软件测试斩获4份offer，所有的惊艳都来自长久的准备

时间不会辜负努力的人，不要质疑你的付出，每一次的努力都是在为自己铺路，所有看起来的幸运，都来自于内心的坚定。今天跟大家分享的是我的转行经历，希望所有人今天的努力，在未来都可以收获一…

人工智能 2023年6月29日
0070
＜人生重开模拟器＞——《Python项目实战》

目录 1.模拟实现 “人生重开模拟器” 1.1 问题导引： 1.2 问题分析： 2. 模拟实现分析及步骤： 3.完整源码： 4.写在最后的话：后记：●由于…

人工智能 2023年7月6日
0053
OpenCV进行图像分割：分水岭算法（相关函数介绍以及项目实现）

一、简介在图像处理的过程中，经常需要从图像中将前景对象作为目标图像分割或者提取出来。图像分割是图像处理过程中一种非常重要的操作。分水岭算法将图像形象地比喻为地理学上的地形表面，实…

人工智能 2023年6月17日
0089
R语言使用order函数对dataframe数据进行排序、基于多个字段（变量）进行排序、第一个字段升序排序、第二个字段降序排序

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月19日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

[paper] lift,splat,shooting 论文浅析

Lift:潜在深度分布 ：

Splat: Pillar Pooling （支柱池）

Shoot: Motion Planning

大家都在看

Lift:潜在深度分布：