VoTr:Voxel Transformer for 3D Object Detection 论文解读

2023年7月10日上午12:21 • 人工智能 • 阅读 54

···abstract

本文提出来voxel-based transformer 主骨干，叫做Voxel Transformer （VoTr）。3D卷积在voxel-based（体素系列）不能够有效捕捉大范围信息，由于感受野的限制。所以提出来将自注意力机制应用与voxel中，即transformer-based的结构能够解决这个问题。直接应用标准的transformer不可行，所以提出改进the sparse voxel module和the submanifold voxel model，这两个模块中的多头注意力中提出两个注意力机制：Local Attention 和 Dilated Attention。

1、Introduction

以前的方法分为两个分支：一个是point-based系列，另一个是voxel-based。point-based系列由于点云稀疏，直接操作点会造成时间资源消耗负担，voxel-based能够很好的利用稀疏卷积来操作。

3D卷稀疏卷积由于感受野的限制，有效性不是很好，但是改进感受野也不是很好处理。

最近transformer在2D方面效果很好，主要是因为像素能够通过自注意力机制构造大范围的关系。如果直接用transformer会有两个问题：1）非空体素太稀疏，所以应该设计特殊操作只关注非空的体素；2）非空体素数量大；所以非常需要新的方法来扩大关注范围，同时将每个查询的参与体素的数量保持在较小的值内。

为了解决第一个问题，作者提出the sparse voxel module和the submanifold voxel module，the submanifold voxel module严格用来操作非空体素的，用来保持原有3D几何形状；the sparse voxel module可以在空位置输出特征，更加灵活，可以进一步放大非空体素空间。为了解决第二个问题，在两个模块的多头注意力机制中应用两个注意力机制：Local Attention 和 Dilated Attention，Local Attention用来关注局部信息，Dilated Attention逐步增加搜索步长，扩展搜索范围。为了这两个注意力机制的查询速度，提出Fast Voxel Query：一个基于GPU的哈希表，用于高效地存储和查找非空体素。

3个贡献：

1）VoTr

2）the sparse voxel module和the submanifold voxel module 以及其中的Local Attention 和 Dilated Attention，包括Fast Voxel Query

3）实验效果很好。。。。。。

2、相关工作

point-based系列的实现model：F-PointNet利用frustum（锥体）、PointRCNN、3DSSD介绍一个新的采样策略

voxel-based系列的实现model：SECOND提出3D稀疏卷积、HVNet、PV-RCNN使用关键点提取特征

transformer-based系列的实现model：2D方面：Vision Transformer划分图片为一个个patch放入transformer、SETR逐级向上采样；MaX-DeepLab使用掩码的transformer；3D：Point Transformer、Pointformer

3、Voxel Transformer

3.1 整体结构

整体结构如图所示。

VoTr:Voxel Transformer for 3D Object Detection 论文解读

3.2 Voxel Transformer Module

VoTr由3个VoTr Building Block组成，每个VoTr Building Block由1个Sparse Voxel Module和2个Submanifold Voxel Module组成。子流形体素模块严格地对非空体素进行操作并且仅在非空位置提取特征；稀疏体素模块可以在空位置提取体素特征，表现出更大的灵活性，可以根据需要扩展原始的非空体素空间。

3.2.1 稀疏体素中的自注意力

1）首先将vi, vj 转换成真正的体素中心pi，pj，利用p = r ·(v + 0.5)，其中r为体素大小，i表示要查询的体素，j为参与计算的体素。

2）计算位置编码Epos

3）计算Q,K,V

其中 Wq、Wk、Wv分别是查询、键和值的线性投影

4）计算注意力

最后也是使用softmax函数，体素上的自我注意是标准2D自我注意的自然3D扩展，具有稀疏输入和相对坐标作为位置嵌入。

3.2.2 Submanifold Voxel Module

由两部分组成，self-attention layer 和 feed-forward layer。

标准的Transformer模块与我们提出的模块的主要区别在于三个方面：1)我们在前馈层之后增加了一个额外的线性投影层，用于体素特征的通道调整。2)用批归一化代替了层归一化。3)我们去除了模块中的所有丢弃层，因为参与的体素的数量已经很少，随机拒绝其中的一些体素阻碍了学习过程。

3.2.3 Sparse voxel module

这个模块可以提取空位置的特征，导致原始非空空间的扩展，对于空位置的注意力，从特征中赋予初始值

其中A是参与特征fj的maxpooling

两个模块仿佛只差一条残差边，原文这样说的：稀疏体素模块的体系结构类似于子流形体素模块，不同之处在于我们移除了自我关注层周围的第一个残余连接，因为输入和输出不再相同。

3.3 Efficient Attention Mechanism

探讨注意力的范围 Ω(i) 。文中说 Ω(i) 应该有三个要求：1）Ω(i)应覆盖相邻体素以保留细粒度的3D结构。2)Ω(i)应尽可能多地获取较大的上下文信息。3) Ω(i)中的参与体素数量应足够小。为了解决这些问题，提出了两种注意机制：局部注意和扩张注意Local Attention and Dilated Attention来控制注意范围Ω(i)。

Dilated Attention应扩大范围，同时要保证参与查询体素数量小于50

3.4 Fast Voxel Query

1）对于每个查询i，我们应用Local Attention和Dilated Attention来获得参与体素索引vj∈Ω(i)。

2）我们在哈希表中使用哈希键vj查找V的各个索引j，如果哈希值返回−1，则判断主播为空体素并拒绝

3）我们在GPU上建立哈希表，将散列后的非空整数体素索引Vj存储为关键字，并将数组V的相应索引j存储为值。

4）我们最终可以收集来自V和F的注意力体素索引Vj和特征fj，其中j用于体素自我注意。

花费时间为O(NΩ)，NΩ是Ω中的体素数(i)；

哈希表中使用线性探测来解决碰撞问题，使用原子操作来解决数据冲突

4、实验

4.1 数据集

Waymo Open 和 KITTI

4.2 比较模型：

1）使用Votr替换SECOND中的3D稀疏卷积形成一阶段的模型VoTr-SSD

2）使用Votr替换PV-RCNN中的3D稀疏卷积形成二阶段的模型VoTr-TSD

4.3 结果：

1、在Waymo Open上表现

一阶段，二阶段都有提升。原文中：在较远区域的显著性能提升表明了Votr获得的大量上下文信息对于3D目标检测的重要性。

2、在KITTI数据集上表现

可以看到在Easy的难度上相比于PV-RCNN来说是有下降的，其余的都有提升，原文总结说：在Kitti数据集上的观测结果与在Waymo Open数据集上的观测结果一致。

4.4 消融实验

1、 Local and Dilated Attention

单独使用L，精度为75.48%；两个同时使用为78.27%

2、dropout in Voxel Transformer

随着丢弃的越多，精度逐渐在下降，这也就是作者为什么不适用drop layer的原因

3、空间复杂度 the number of attending voxels

相对于使用3D稀疏卷积层的网络，当使用我们的backbone后，参数数量都有所下降。

4、时间复杂度

使用3D卷积参数特别多，会造成计算时间也会特别多，所以当使用VoTr后，时间都会下降不少

5 、结论

我们介绍了Voxel Transformer，这是一个通用的基于Transformer的3D主干，可以应用于大多数基于体素的3D探测器。VoTr由一系列稀疏和子流形体素模块组成，通过特殊的注意机制和快速体素查询，可以有效地对稀疏体素执行自我注意。在未来的工作中，我们计划探索更多基Transformer的3D检测架构。

Original: https://blog.csdn.net/ko_gu_dao/article/details/124312518
Author: 莫～忆轩*
Title: VoTr:Voxel Transformer for 3D Object Detection 论文解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681741/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【TensorFlow】TensorFlow推荐系统（TensorFlow Recommenders）

从电商到短视频，推荐系统被广泛应用于各个场景，但实际上要打造好一个有效的推荐系统并不容易。 TensorFlow Recommenders 就是这样一个为了打造高效可扩展的推荐系统…

人工智能 2023年5月25日
0079
深度学习在神经营销中基于脑电的偏好分类

0 博主的小前言博主前几天读到了一篇文献（Deep Learning for EEG-Based Preference Classification in Neuromarket…

人工智能 2023年7月2日
00103
18张图，直观理解为什么神经网络这么有效？

迄今，人们对神经网络的一大疑虑是，它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好，其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形，…

人工智能 2023年7月13日
0043
【Deep learning】——一文知torch分类任务的交叉熵Loss（多分类、多标签任务）

【Deep learning】——一文知torch分类任务的交叉熵Loss（多分类、多标签任务） * – 多分类任务 – 多标签任务之前对torch的分类…

人工智能 2023年7月2日
0054
分销系统功能有哪些？好的分销比例如何设定？

分销机制是一种较为常见的数字化营销手段，通过促销手段引导消费者成为商城的分销身份，分享产品给他人下单可以获得推荐佣金，让消费者成为商城的烈变者和推广者，从而加速产品的流通。为了更快…

人工智能 2023年6月29日
0078
深蓝学院-视觉SLAM课程-第8讲笔记-回环检测

课程Github地址：https://github.com/wrk666/VSLAM-Course/tree/master最后一次课了，加油！内容 ; 1. 回环检测与词袋回顾…

人工智能 2023年6月2日
0083
回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网络)多输入单输出目录 * – 回归预测 | MATLAB实现CNN-LSTM(卷积长短期记忆神经网…

人工智能 2023年6月16日
0094
python绘制热度图(heatmap)

1、简单的代码 from matplotlib import pyplot as plt import seaborn as sns import numpy as np impo…

人工智能 2023年7月14日
0056
【模电实验】【超值1 + 1】【验证性实验——比例、求和运算电路实验】【验证性实验——各种非正弦信号发生器实验】

实验6-1 验证性实验——比例、求和运算电路实验 1. 反相比例放大电路实验参照下图连接电路，确认无误后接通电源其中仿真图如下：测量静态工作点根据表 4.6.1 中的参数对电…

人工智能 2023年6月27日
00105
「原创」大数据岗位总结和相关书籍推荐

作者：数据一哥来源：数据社全文共3547个字，建议 10分钟阅读大家好，我是一哥。最近有几个群友问我大数据怎么入门，作为一个零基础大数据入门学习者该看哪些书呢？我结合自己…

人工智能 2023年7月17日
0086
训练集Loss收敛，但是测试集Loss震荡的厉害？

今天在调试模型的时候发现训练集上Loss已经收敛了，但是在验证集上Loss震荡的比较厉害，如下图所示：查阅网上各种博客后发现验证集Loss震荡的原因可能有如下：数据问题，比如…

人工智能 2023年6月16日
0073
学习笔记——tensorflow1.14.0环境安装（win10）

选择win 64位下载即可。下载后exe安装，可能需要注意的是会询问你是否添加到环境变量中，可以选择不添加，以后开Anaconda可以用开始里面的Anaconda Prompt打开…

人工智能 2023年5月25日
0087
逻辑回归模型是否需要进行特征缩放

是否需要进行特征缩放的问题在逻辑回归模型中，是否需要进行特征缩放是一个常见的问题。特征缩放是指将特征数据标准化到特定的范围内，以保证模型能够更好地拟合数据。本文将介绍逻辑回归模型…

人工智能 2023年12月31日
0024
pytorch构建的深度学习模型（pt文件）转换为onnx格式，并支持batch输入，以bert模型为例

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月27日
0069
浅

Amlogic S905 D3是一款专为人工智能场景设计的通用型SOC，主要适用于智能机顶盒、智能家居、数字标牌。它基于Big.Little架构，将四核Cortex-A55与算例…

人工智能 2023年5月23日
0074
网络安全知识图谱关键技术

摘要【目的】复杂多变的网络攻击活动对网络安全工作带来了严峻挑战。将知识图谱引入网络安全领域，有助于刻画展现安全态势，支持安全决策和预警预测。【方法】本文综述了目前国内外知识图…

人工智能 2023年6月10日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31