Voxel-RCNN：基于体素化的高效率3D目标检测算法

2023年7月9日下午4:58 • 人工智能 • 阅读 83

论文及代码链接

论文链接：论文链接
代码链接：代码链接

论文背景及动机

目前3D目标检测方法主要有Voxel-based方法与Point-based两大类。两种方法各个各的优点与不足，主要表现在：基于voxel的方法在点云进行体素化的时候，绝大部分体素都是空的，但是进行3DCNN卷积的时候，空的卷积需要补0，这就会造成很大的显存消耗与计算量，目前这个问题已经通过稀疏卷积得到较好的解决（可以看一下SECOND论文）。其次，Voxel-based方法会带来不可避免的信息损失，这主要由于每个Voxel内的点的数量最后是一个固定值（不然没法通过MLP求Voxel求体素特征了），这就会造成一个情况，如果一个体素内的点的数量超过了限制，就会把多余的点直接过滤掉。而基于point的方法主要限制就在于Grouping操作，也就是经过FPS得到采样点之后的近邻搜索操作大大限制Point-based方法的效率。有研究表明，Point-base方法的55％到80％的时间都花在了Grouping操作上。本文主要针对于Point-based方法效率低下的问题，作者认为始终保有准确的点的位置信息不是影响识别精度的关键，有一定信息损失的体素表示，也可以达到比较好的识别效果。最终该算法达到了一个较好的算法速度与准确性的平衡。

; 网络整体结构与关键module分析

整体结构

该网络的整体结构如上图所示，Voxel-RCNN算法的前面和SECOND一样，都是体素化、3DCNN卷积、转化成BEV二维特征图，通过2Dbackbone进一步提取特征，通过RPN生成Proposal。SECOND到这儿就结束了，而Voxel-RCNN通过进一步提取Proposal中的特征进行Proposal的refinement，通过两阶段的方法得到更优的检测精度。

; 关键module分析

文章中是先从Voexl ROI Polling进行分析的，也主要就介绍了这个部分，因为这个文章主要就是为SECOND添加了一个二阶段的Proposal-Refinement环节。本文主要是为了做笔记，还是按照整体网络的顺序来进行介绍。
a) 3D-backbones

3D主干网络采用了与SECOND一样的3DCNN特征提取网络，采用稀疏卷积来减少显存占用与减少计算量，采用了8x的下采样率，具体稀疏卷积如何实现的大家这儿就不细讲了，网上资料挺多,一般通过3D-backbone之后，就生成了BEV特征图了（BEV在Z向进行了压缩，这有个前提，要识别的物体不存在Z向的堆叠）。下面是3D主干网络的结构图：

b) 2D-backbones
2D-backbone就很多了，一般采用Encoder-Decoder结构，也就是先下采样在上采样，然后对应层的特征进行concat，最后通过特征进行分类与Proposal的回归。

c) Voxel ROI Pooling
首先，我们先解释一下Voxel ROI Pooling的实现流程。Voxel ROI Pooling是用来更细化地提取Proposal特征，进行第二阶段地Proposal的refinement。其详细流程如下：首先，将RPN网络提供的proposal划分成GxGxG个网格，然后我们分别计算每个网格点的特征，这个特征应该怎么计算呢，我们寻找网格点周围的K个体素，然后通过Pointnet系列的方法就可以进行网格特征的计算了。（Pointnet本身是计算量不大的，因为主要就是MLP,Point-based方法局限主要在Grouping那块）。得到网格特征之后，继续采用Pointnet进行特征聚合就行。当然，考虑到多尺度的要求，我们可以分别通过4x下采样率的voxel与8x下采样率的voxel来分别计算网格特征，并将不同尺度的网格特征进行concat得到多尺度的网格特征。
了解了整个流程之后，我们就可以按照文章的顺序分别讨论一下Voxel Query与ROI PooLing流程了。
a) Voxel Query
Voxel Query用来寻找proposal中划分的每个网格周围的K个体素，其采用了曼哈顿距离来寻找K个最近的体素，两个voxel之间的曼哈顿距离由体素的索引（i,j,k）决定：

(这块为什么作者要给出了Ball Query与Voxel Query的对比我还得阅读一下别的论文再来进行解释，因为我感觉针对于体素网格，采用Voxel Query来进行近邻搜索是很自然的，也许以前体素化的方法仍然是通过Ball Query进行Grouping???)
Voxel-RCNN：基于体素化的高效率3D目标检测算法

b) Voxel ROI Pooling
前面已经讲过了，就是把proposal划分成GxGxG个Grid,分别寻找每个Grid的周围的K个voxel，采用Pointnet进行特征聚合得到每个网格的特征描述，然后再通过pointnet聚合每个网格的特征得到proposal的特征描述，之后就可以通过MLP得到输出了。这块比较简单，不过作者进行了一点改进，就是通过把不太相关的特征进行拆分以减少计算量，具体如下图所示：
Voxel-RCNN：基于体素化的高效率3D目标检测算法

每个体素的体素特征应该包括每个体素的坐标以及之前通过卷积聚合的特征，作者认为，这两个部分之间没有关联，可以分开来计算。我们设一共有M个网格，每个网格需要寻找K个最近体素，每个体素的特征维度为（C+3）,输出的网格特征维度为C’，那么按原来的方法，其计算量为（O(MxKx(C+3)xC’)）,如果我们把坐标与卷积特征分开，那么计算量就是（O(MxKx3xC’）+O(NxC’xC)），其中N是proposal中体素的总数，也就是针对于卷积特征而言，一次性对proposal中的所有体素进行MLP而不是分别对每个Grid周围的K个体素。显然，N一定小于M。

LOSS function

和常见的的2阶段检测方法的损失函数定义类似。
一阶段的损失函数如下：

其包含了分类损失与回归损失两个部分，考虑到正负样本的不均衡，采用了Facol_loss来计算分类损失，对于回归损失，采用了Huber_loss进行优化，保证了Loss不会过大。
二阶段的损失如下：

包含了IOU的分类损失以及正样本的proposal的回归损失。
基于IOU的label定义如下：

属于个人的论文阅读笔记，由于本人尚处于刚学习阶段，水平有限，在所难免会有理解错的地方，望各位大佬指出，谢谢。

Original: https://blog.csdn.net/weixin_41271939/article/details/124203144
Author: 慢下去、静下来
Title: Voxel-RCNN：基于体素化的高效率3D目标检测算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681077/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

疯狂的机器学习实战-银行营销预测

机器学习实战-银行营销预测问题：数据集：链接：https://pan.baidu.com/s/1TUOLr8jFbT38p_iUh1iBsQ提取码：1234 银行营销数据集这些…

人工智能 2023年7月1日
0094
MobileNets(V1)的Tensorflow实现

目录 1. 前言 2. 模型搭建 3. 数据准备 4. 模型训练 5. 结果分析前言在前一篇中MobileNets(V1)简介及两个初步的代码实验介绍基于Tensorflow….

人工智能 2023年5月26日
0073
SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection

SwinNet：Swin Transformer 驱动边缘感知 RGB-D 和 RGB-T 显着目标检测 IEEE Transactions on Circuits and Sys…

人工智能 2023年7月9日
0068
【知识图谱】Louvain、LPA等5类经典社区发现算法 Python 实战

一、社区发现概述根据图论，加权网络表示为𝐺=(𝑉,𝐸,𝑊)，未加权网络表示为𝐺=(𝑉,𝐸)，其中𝑉和𝐸表示节点和边的集合，𝑊分别表示𝐸相应的权重，以连接的强度或容量为单位。在未加…

人工智能 2023年6月1日
0074
熬夜爆肝万字C#基础入门大总结【建议收藏】

往期文章分享点击跳转=>熬夜再战Android从青铜到王者-UI组件快速搭建App界面点击跳转=>熬夜再战Android从青铜到王者-几个适配方案点击跳转=>熬…

人工智能 2023年5月30日
0090
pytorch 层标准化 LayerNorm 的用法

目录 1、为什么要标准化（理解的直接跳过到这部分） 2、LayerNorm 解释 3、举例-只对最后 1 个维度进行标准化 4、举例-对最后 D 个维度进行标准化 1、为什么要标准…

人工智能 2023年7月20日
0061
NLP（自然语言处理）

一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然…

人工智能 2023年6月23日
00130
pytorch中LSTM的输出的理解，以及batch_first=True or False的输出层的区别

还记得寒假，我也纠结过这个问题，当时好像弄清楚了，感觉没什么问题，然后最近上手又感觉有点懵逼，赶紧记下来，免得以后忘记。网上搜了很多，但是好像没有简单易懂的例子。目录输出层o…

人工智能 2023年6月16日
0084
Mask RCNN 超详细图文入门（含代码+原文）

文章目录前言一、实例分割 * 1.1 从分类到实例分割 1.2 实例分割的背景二、从RCNN、Fast RCNN、Faster RCNN，到Mask RCNN 2.1 RCN…

人工智能 2023年6月16日
00108
VS2019 C++调用pytorch Faster-RCNN全过程(Libtorch+opencv)

前言目标检测网络根据阶段数主要有 one-stage和 two-stage两大类。 one-stage：直接&a…

人工智能 2023年7月9日
0068
Pandas 之 DataFrame 常用操作

import numpy as np import pandas as pd This section will walk you(引导你) through the fundame…

人工智能 2023年6月2日
0073
扩散模型又杀疯了！这一次被攻占的领域是…

文 | Yimin_饭煲从2020年的初出茅庐，到2021年的日趋火热，再到2022年的大放异彩，扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越…

人工智能 2023年6月15日
0079
目标检测结果数据分析

在验证集上会得到COCO的评价列表在目标检测上常用的两个公开数据集pascal voc和coco 针对这两个数据集都有一个评判标准目标检测与图像分类明显差距是很大的在图像分类…

人工智能 2023年7月9日
0064
硬件里的玄乎事

系列文章目录 1.元件基础2.电路设计3.PCB设计4.元件焊接5.板子调试6.程序设计7.算法学习8.编写exe9.检测标准10.项目举例11.职业规划文章目录前言 1、一碰…

人工智能 2023年6月29日
0093
【OpenCV 例程200篇】226. 区域特征之紧致度/圆度/偏心率

『youcans 的 OpenCV 例程200篇 – 总目录』【youcans 的 OpenCV 例程 300篇】226. 区域特征之紧致度/圆度/偏心率特征通常是…

人工智能 2023年6月18日
00132
利用screen命令实现SSH后台不断开

利用screen命令实现SSH后台不断开 1.背景有时我们登录了远程的服务器，需要执行一些命令，一些执行时间短的命令我们可以慢慢等待其结束，但是有一些任务的执行时间会很长，比如一…

人工智能 2023年6月4日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31