DeepRoute Lab | AAAI22新工作：基于稀疏跨尺度注意力网络的高效LiDAR全景分割

2023年6月3日上午6:02 • 人工智能 • 阅读 135

By 元戎感知组

今天和大家分享工作的是自动驾驶中的点级别的全景分割感知任务。内容主要是解读我们组最新的一篇被AAAI22接收的点云全景分割的工作 Sparse Cross-scale Attention Network for Efficient LiDAR Panoptic Segmentation .

DeepRoute Lab | AAAI22新工作：基于稀疏跨尺度注意力网络的高效LiDAR全景分割

Introduction & Motivation

About Panoptic Segmentation

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:89786a14-7f0f-4440-bb04-693a02b95fdb

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:764c74b6-404c-41c4-b9f5-1bd89c02d382

因此，除了检测任务，自动驾驶重同样有一个重要的任务——分割。其中 点云语义分割的任务是要给点云中的每一个点打上一个标签，比如车辆、行人、树木、栅栏等等；而 点云实例分割的主要任务是判断点是否属于一个物体，并且属于哪个物体，即给每个点打上所属物体的id标签。 点云全景分割可以看做是点云语义分割和实例分割的结合，参考下图：

基于LiDAR点云的不同的分割任务【1】

Related Work

点云有一些特性：稀疏性（sparse），表面聚集性（surface-aggregated）。这使得处理全景分割这样的任务时会有一些问题：

LiDAR只能照射到物体表面，因此对于一些大车来说，表面点距离其中心很远，往往会导致 过分割，如下图b

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:1b890a75-a23f-4e20-befa-23128b1b0432

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:dfafd44d-b508-4922-b26f-3ec60c72cd10

第一种是借助聚类的方法来获得物体的实例标签，比如VoteNet，PointGroup，DS-Net等等，这些方法本质上是探索更高性能的聚类方式；
第二种是倾向于高效方式的全景分割，比如EfficientLPS，Panoptic-PolarNet等方法在BEV上获得2D特征，并且使用中心点预测+点云offset的回归方式来进行高效聚类

Motivation

由于车规级的限定，目前自动驾驶更关注于高效的处理方式，因此我们也聚焦在第二种高效聚类上。但是BEV下2D conv会向一些原本没有点的无效voxel扩散很多特征，导致一些中心点误检和小物体的欠分割。因此我们引入了sparse convolutions网络进行3D特征的提取。其次，过去的工作往往忽视了对long-range特征的捕捉，比如大型车辆的首尾之间的关联，这种关联在sparse的3D特征中又更难提取到。

因此为了同时照顾到上述问题中的 过分割和 欠分割，我们提出了高效的sparse cross-scale attention network (SCAN)：

通过 cross-scale global attention模块来直接建模这种long-range关联信息，将低尺度下的强空间信息特征和高尺度下弱空间信息的特征进行融合来适应点云表面聚集的特性
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:be1741b6-8e42-46d2-923e-97361dc54f48

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:13c6de84-a86d-4c0f-8700-1321fe6bad20
提出了 BEV sparse distribution的物体中心点表达
使用 multi-scale sparse supervision进行监督

最终我们的方法在保证实时性的前提下达到了SORT的效果，如下图所示：

Approach

类似于Panoptic-PolarNet【2】，我们将3D全景分割分为几个子任务：点级别的语义预测（point-wise semantic predictions），BEV下的中心点分布预测（BEV centroid distribution）和逐点的距中心点偏移量（centroid-related point offsets）。除了这三个head之外，我们新加了一个多尺度稀疏语义预测head作为auxiliary head来优化多尺度下注意力的特征。

网络的整体结果见下图。Backbone这里采用了点云分割的SORT，也是我们之前的工作DRINet【3】。DRINet有4个block，其中每个block处理的voxel尺度分别为1,2,4,4。本工作作为一种plugin，也可以应用到其他backbone中。原始点云经过backbone网络的每一个block，分别输出该block下的point-wise features和sparse voxel features，其中point-wise feature继续参与下一个block的前向传播，而sparse voxel features则被提出的 cross-scale attention module聚合来提取出稀疏的BEV centroid distribution。此外，point features和从attented sparse voxel features gather出的点特征进行concat，之后得到点级别的语义预测和逐点的偏移量。

Cross-scale Global Attention

跨scale的sparse attention主要分为三个步骤：

2.Cross-scale Global Attention Layer: 点云中的隐式多尺度信息是十分关键的。然而为了捕捉到大尺度下点云中的long-range信息，核心思路是在所有的有效voxel上进行global处理。为了兼顾计算效率，我们引入了sparse的特征，只处理有效voxels，并且在scale 4的特征上进行global attention来减少voxel数量。为了进一步减少计算量，我们在进行global attention时采用了Generalized Kernelizable Attention (GKA)【4】的实现。 _Key_和 _Value_由上一个block的特征对齐后得到，当前block的特征则作为 _Query_特征。Cross-scale attention中的attention layer共享权重来学习稀疏特征之间的注意力。

3.Multi-scale Sparse Supervision: 目前的已有工作往往利用点级别或者dense的特征来进行语义监督。本文首次提出直接进行稀疏的特征监督方法。这样做有3个好处，一是可以作为语义预测的辅助任务，二是可以对Cross-scale attention中用到的sparse features进行辅助监督，得到更好的特征，三是sparse的监督可以极大减少显存的占用，使得Multi-scale的监督成为可能。相比于直接使用”hard”标签（直接使用voxel类别作为预测结果），我们选择使用”soft”方法，即预测voxel中所有点的各个类别的分布比例。

BEV Sparse Centroid Distribution

之前的方法大多使用基于点的聚类或者dense的中心点预测来进行实例分割，但点云中实例是空间可分的，因此离散化的中心分布表达很适合LiDAR实例分割。对于点云的中心点分布，我们比较了三种不同的表征方式，其中我们提出的BEV Sparse Distribution取得了最好的效果：

BEV Dense Distribution: 从2D实例分割中移植过来，丢掉z轴的信息，只在BEV下用2d卷积来获得。然而这种表征方式浪费了很多计算量在在无效voxel上；另外2d卷积也会将提取到的稀疏关联信息扩散到invalid voxels，这会confuse网络
3D Sparse Distribution: 使用3D的稀疏表征，一个是计算量和显存占用很高，其次是加入z向的自由度会使得任务更加难以收敛。好处则是能够更好利用到空间信息
BEV Sparse Distribution: 根据以上的一些rethinking，我们提出了BEV Sparse Distribution表征，可以同时保持稀疏性和提取到的关联性，并且维持计算高效性。通过对3D稀疏特征在z上取max，我们可以将3D稀疏特征降维成2D特征，之后可以再用上面提到的Sparse Supervision进行监督

实验

Ablation Study

【1】Aygun, Mehmet, et al. “4D Panoptic LiDAR Segmentation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

【2】Zhou, Zixiang, Yang Zhang, and Hassan Foroosh. “Panoptic-PolarNet: Proposal-free LiDAR Point Cloud Panoptic Segmentation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

【3】Ye, Maosheng, et al. “Drinet: A dual-representation iterative learning network for point cloud segmentation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

【4】Choromanski, Krzysztof, et al. “Rethinking attention with performers.” arXiv preprint arXiv:2009.14794 (2020).

关于DeepRoute Lab

深圳元戎启行科技有限公司（DEEPROUTE.AI）是一家专注于研发 L4级自动驾驶技术的科技公司，聚焦出行和同城货运两大场景，拥有”元启行”（Robotaxi自动驾驶乘用车）和”元启运”（Robotruck自动驾驶轻卡）两大产品线。

【DeepRoute Lab】是我们创办的自动驾驶学术产业前沿知识共享平台。我们将会把公司内部的paper reading分享在这里，让你轻松读懂paper；我们也会在这里分享我们对行业的理解，期待越来越多的同学认识自动驾驶，加入这个行业！

Original: https://blog.csdn.net/DeepRoute_Lab/article/details/123350891
Author: DeepRoute_Lab
Title: DeepRoute Lab | AAAI22新工作：基于稀疏跨尺度注意力网络的高效LiDAR全景分割

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563356/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络案例

目录神经网络案例 * 数据加载数据处理模型构建模型编译模型训练模型测试模型保存总结神经网络案例学习目标能够利用tf.keras获取数据集能够构建多层神经网络…

人工智能 2023年5月25日
0052
《Python 快速入门》C站最全Python标准库总结

本文收录于《100 天精通 Python – 快速入门到黑科技》专栏，是由 CSDN 内容合伙人丨全站排名 Top 4 的硬核博主不吃西红柿倾力打造。分基础知识篇、…

人工智能 2023年6月3日
0094
命名实体识别（Named Entity Recognition,NER）

命名实体识别是指在文本中定位命名实体的边界并分类到预定义类型的集合的过程。实体的标注形式有BIOE等，其中B是body的缩写，I是in的缩写，O是output的缩写，E是expec…

人工智能 2023年6月1日
0083
【SQL刷题】DAY14—-SQL使用子查询专项练习

博主昵称：跳楼梯企鹅博主主页面链接：博主主页传送门博主专栏页面连接：专栏传送门–网路安全技术创作初心：本博客的初心为与技术朋友们相互交流，每个人的技术都存在短板…

人工智能 2023年7月30日
0097
【深度学习】全连接层

4.5 全连接层全连接层是一个列向量(单个样本)。通常用于深度神经网络的后面几层，用于图像分类任务。全连接层，是每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起…

人工智能 2023年6月16日
00157
用Anaconda里面的conda命令创建虚拟环境并克隆环境或者复旧电脑实验环境包、安装不同版本的tensorflow或pytorch框架

用conda的虚拟环境可以安装不同版本的tensorflow或pytorch，没必要一直升降级，想用哪个换个环境就行。创建环境的好处：1.灵活安装，再也不用担心装错了。2.可以切换…

人工智能 2023年5月23日
00134
机器学习笔记（17）使用XGBoost完成高维数据的分类任务

摘要： XGBoost作为一种高性能集成算法在Higgs机器学习挑战赛中大放异彩后，被业界所熟知，之后便在数据科学实际工程中被广泛应用。本文首先试从原理解析XGBoost分类器的具…

人工智能 2023年7月2日
0087
用Python实现简单的人脸识别，10分钟搞定！（附源码）

前言让我的电脑认识我，我的电脑只有认识我，才配称之为我的电脑！今天，我们用Python实现简单的人脸识别技术！ Python里，简单的人脸识别有很多种方法可以实现，依赖于pyt…

人工智能 2023年7月29日
0065
yolov5和rknn模型的问题

rknn官方目前1.7.0对新算子的支持还没跟上, 需要将yolov5中的模型做下面的改变,改变之后重新训练新的模型. 再去转onnx, 然后转rknn (吐槽一下, rknn官…

人工智能 2023年6月24日
0093
ENVI遥感图像几何精校正

一、实验名称：图像几何精校正二、实验目的： Image to Map进行几何校正和Image to Image进行图像自动配准。三、实验内容和要求： 1.对taian-drg…

人工智能 2023年6月17日
0092
数据科学与大数据技术与计算机科学与技术哪个好

数据科学与大数据技术，智能科学与技术，这两个专业我该如何选择？哪个好这两门课，一个是大数据，一个是人工智能都是现在炙手可热的学科。相对而言，大数据适用性更广一些。人工智能专业，…

人工智能 2023年7月14日
0080
windows环境下neo4j安装教程

一、什么是neo4j？ neo4j是先进的图数据库，简单来说，图数据库主要用于存储更多的连接数据。二、下载neo4j的zip压缩包下载地址：https://neo4j.com/…

人工智能 2023年6月5日
00129
4 Pandas 数据结构之生成DataFrame

目录用列表生成 DataFrame 用多维数组字典生成 DataFrame 用 Series字典生成 DataFrame 用列表字典生成 DataFrame 用元…

人工智能 2023年7月6日
0076
数字图像处理OpenCV——实验三图像分割实验

图像分割实验实验项目名称：图像分割实验实验项目性质：验证性实验所属课程名称：数字图像分析与艺术化处理实验计划学时：2 进一步理解图像的阈值分割方法和边缘检测方法的原理。掌…

人工智能 2023年6月22日
0093
python干货：如何使用Python对音频进行特征提取？

写在前面因为喜欢玩儿音乐游戏，所以打算研究一下如何用深度学习的模型生成音游的谱面。这篇文章主要目的是介绍或者总结一些音频的知识和代码。恩。如果没玩儿过的话，音乐游戏大概是下面这…

人工智能 2023年5月25日
0087
【Rust日报】2022-11-08 bless.rs: 带你走入 Rust 生态

bless.rs: 带你走入 Rust 生态与 Python 和 Go 等其他编程语言相比，Rust 的标准库非常小，仅包含一些核心数据结构，所有其他功能都交给第三方 crate…

人工智能 2023年6月27日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31