【论文阅读】Point Transformer解读

2023年5月28日上午1:42 • 人工智能 • 阅读 90

文章目录

前言
*
摘要
1.介绍
2.相关工作
3.Point Transformer
–
4. Experiments
5.总结

前言

1. 为什么要做这个研究？
探究Transformer在点云处理中的应用。
2. 实验方法是什么样的？
在场景分割中采用了U-net结构，包含5个编码器和5个解码器，编码器通过Transition Down + Point Transformer Block来降采样和提取特征，解码器通过Transition Up+ Point Transformer Block来上采样映射特征。
Point Transformer Block：基于vector self-attention，使用减法关系，并将位置编码δ \delta δ加到注意向量γ \gamma γ和变换特征α \alpha α上。
3. 得到了什么结果？
在场景分割、目标分类和语义分割中都取得了很不错的效果，或许使用Transformer来作为提取点云特征的操作是很有效果的。

摘要

本文研究了self-attention网络在三维点云处理中的应用。作者为点云设计了self-attention层，并使用这些层来构建用于语义场景分割、语义分割和目标分类等任务的self-attention网络。在大规模语义场景分割的S3DIS数据集上，Point Transformer表现SOTA。

1.介绍

Transformer的核心self-attention操作本质上是集合操作：它对输入元素的排列和基数不变。因此，将self-attention应用于三维点云是非常自然的，因为点云本质上就是嵌入在三维空间中的集合。
作者研究了self-attention算子的形式，self-attention在每个点周围的局部邻域中的应用，以及网络中位置信息的编码。由此产生的网络完全基于self-attention和逐点操作。结果表明Point Transformer在3D深度学习任务中非常有效。
作者贡献：

为点云处理设计了一个高表现力的Point Transformer层。该层对于排列和基数是不变的，因此本质上适合于点云处理。
基于Point Transformer层，构建了高性能的Point Transformer网络，用于点云的分类和密集预测。这些网络可以作为三维场景理解的通用主干。
作者报告了在多个领域和数据集上的大量实验，进行了对照研究，以检查Point Transformer设计中的具体选择，并在多个高度竞争的基准上设定了新的技术水平，优于之前的工作。

2.相关工作

此前三维点云处理方法：基于投影的、基于体素的和基于点的网络。

3.Point Transformer

首先回顾一下 Transformer和self-attention的一般公式，然后给出用于3D点云处理的Point Transformer层，最后作者提出了3D场景理解网络结构。

3.1.Background

self-attention算子分为两种类型：scalar attention和vector attention。
X = { x i } i \mathcal{X} = {x_i}_i X ={x i }i 为一组特征向量，标准scalar attention点积注意层可以表示如下：

其中y i y_i y i 是输出特征。ϕ , ψ , α \phi,\psi,\alpha ϕ,ψ,α是逐点transformer特征，类似先行投影或MLPs。δ \delta δ是位置编码函数，ρ \rho ρ是归一化函数，如softmax。scalar attention计算通过ϕ \phi ϕ变换特征和ψ \psi ψ变换特征之间的标量积，并将输出作为关注权重，来聚集α \alpha α变换特征。

在vector attention中，注意力权重的计算是不同的，特别是注意力权重可以调节单个特征通道的向量。

其中β \beta β是关系函数，例如减法，γ \gamma γ是产生用于特征聚集的注意向量的映射函数，例如MLP。

; 3.2. Point Transformer Layer

Point Transformer层是基于vector self-attention的，使用减法关系，并将位置编码δ \delta δ加到注意向量γ \gamma γ和变换特征α \alpha α上：

这里，子集X ( i ) ⊆ X \mathcal{X}(i) ⊆ X X (i )⊆X是x i x_i x i 的局部邻域(k近邻,k=16)中的一组点。因此，作者采用最近的self-attention网络的实践进行图像分析，在每个数据点周围的局部邻域内局部应用self-attention。映射函数γ \gamma γ是具有两个线性层和一个非线性层的MLP。Point Transformer层如图2所示。

3.3. Position Encoding

在3D点云处理中，3D点坐标本身是位置编码的自然候选。除此之外，作者还引入了可训练的参数化位置编码δ \delta δ，定义如下:

这里p i p_i p i 和p j p_j p j 是两个3D点坐标。编码函数θ \theta θ是具有两个线性层和一个非线性层的MLP。值得注意的是，作者发现位置编码对于注意力生成分支和特征变换分支都很重要。因此Eq.3在两个分支中增加了可训练的位置编码。位置编码θ \theta θ与其他子网端到端训练
【论文阅读】Point Transformer解读

; 3.4. Point Transformer Block

我们构建了一个以Point Transformer层为核心的残差Point Transformer块，如图4(a)所示。transformer块集成了self-attention层，可以降维和加速处理的线性投影以及残差连接。输入是一组具有相关3D坐标 p 的特征向量 x。Point Transformer块便于这些局部特征向量之间的信息交换，为所有数据点产生新的特征向量作为其输出。信息聚合既适应特征向量的内容，也适应它们在3D中的布局。

3.5. Network Architecture

作者基于Point Transformer块构建了完整的3D点云理解网络。Point Transformer是网络中主要的特征聚合操作。作者不使用卷积进行预处理或者辅助分支：网络完全基于Point Transformer层、逐点变换和池化。网络架构如图3所示。
Backbone structure. 用于语义分割和分类的Point Transformer网络中的特征编码器具有五个对点集进行下采样的阶段。每个阶段的下采样速率是[1，4，4，4，4]，因此每个阶段后点集中点的数量为[N，N/4，N/16，N/64，N/256]，其中N是输入点数。注意，级数和下采样速率可以根据应用而变化，例如构建用于快速处理的轻量主干。连续的阶段由转换模块连接：向下转换用于特征编码，向上转换用于特征解码。
Transition down. 关键功能在于减少点的数量。将输入的点集表示为P 1 P_1 P 1 ，输出点集为P 2 P_2 P 2 。作者在P 1 P_1 P 1 中执行最远点采样，来获得分布良好的子集P 2 ⊂ P 1 P_2 \subset P_1 P 2 ⊂P 1 。使用P 1 P_1 P 1 的kNN图(k=16)将特征向量从P 1 P_1 P 1 汇集到P 2 P_2 P 2 。每一个输入特征都经过一个线性变换，随后是batch归一化和ReLU，接着是将P 2 P_2 P 2 在P 1 P_1 P 1 的 k 个邻居最大池化到P 2 P_2 P 2 的每个点。Transition down模块如图4(b)所示。
Transition up. 对于密集的预测任务，例如语义分割，作者采用了一种U-net设计，其中上述编码器与对称解码器耦合。解码器中的连续级由Transition up模块连接，主要功能是将来自下采样的输入点集P 2 P_2 P 2 的特征映射到其超集P 1 ⊃ P 2 P_1 \supset P_2 P 1 ⊃P 2 上。为此，每个输入点都要经过一个线性图层处理，然后进行批量归一化和ReLU，再通过三线性插值将P 2 P_2 P 2 特征映射到更高分辨率的点集P 1 P_1 P 1 上。来自前一解码器级的这些内插特征通过跳跃连接与来自相应编码器级的特征相结合。Transition up模块的结构如图4©所示。
Output head. 对于语义分割，最终的解码器阶段为输入点集中的每个点生成一个特征向量。再应用MLP将这个特征映射到最终的逻辑。对于分类，我们对逐点特征执行全局平均汇集，以获得整个点集的全局特征向量。这个全局特征通过一个MLP得到全局分类逻辑。

4. Experiments

作者在多个领域和任务中评估了所提出的Point Transformer设计的有效性。对于三维语义分割，使用了具有挑战性的斯坦福大规模三维室内空间数据集(S3DIS) 。对于目标分类，使用广泛采用的ModelNet40数据集。对于语义分割，使用ShapeNetPart。
OA：所有类别的总体准确度。
mAcc：每个类别准确度的平均值。
mIoU：计算所有类别交集和并集之比的平均值.

效果都不错。

消融实验

邻居点选择数量：k=16最好，k

; 5.总结

与语言或图像处理相比，Transformer可能更适合点云处理，因为点云本质上是嵌入在度量空间中的集合，Transformer网络核心的self-attention算子基本上是集合算子。除了这种概念兼容性之外，Transformer在点云处理方面非常有效，优于各种的最先进设计：基于图的模型、稀疏卷积网络、连续卷积网络等。Transformer在3D物体检测领域或许也可以有所应用。

Original: https://blog.csdn.net/weixin_41317766/article/details/119852644
Author: 向上的毛毛
Title: 【论文阅读】Point Transformer解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528580/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用Python采集球员信息，成功预测到了球赛胜负？

前言嗨嗨，最近看球赛的朋友多吗 emm怎么说，我对这个虽然兴趣不是很大但是还是想跟朋友赌赌，自己对这些球员也不是很熟悉，索性叫我的好同事帮我用Python采集了各国球员的一些信…

人工智能 2023年7月31日
0079
TypeError: _vhstack_dispatcher() takes 1 positional argument but 2 were given

a=np.ones(shape=[8,1]) b=np.zeros(shape=[8,1]) c=np.hstack(a,b) c TypeError Traceback (mos…

人工智能 2023年5月25日
0072
【3本精挑细选的书籍】网络爬虫推荐书籍（Python）【从0到实践】

🔔 B站主页：https://space.bilibili.com/1707990930 📣 欢迎🎉点赞👍收藏🌟评论📝如有错误请指正! 💻 Python&Java领域博主 …

人工智能 2023年7月17日
0061
Seurat处理与数据读取

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 R语言使用Seurat对单细胞RNA-seq矩阵进行标准化和选取2000个高变基因，并提取处理以后的数据矩阵。 R…

人工智能 2023年7月15日
0068
python基础：try…except…的详细用法

我们把可能发生错误的语句放在try模块里，用except来处理异常。except可以处理一个专门的异常，也可以处理一组圆括号中的异常，如果except后没有指定异常，则默认处理所有…

人工智能 2023年7月4日
0082
语音信号处理-基础(四)：时域音频特征及Python实现

一、振幅包络线 Amplitude envelope (AE) 幅度包络是由不同频率的幅度的最高点连接而成的曲线。它在数学上定义为： [En] The amplitude enve…

人工智能 2023年5月25日
0084
python中Pandas之DataFrame索引、选取数据

总结一下索引问题 1.1 认识索引先创建一个简单的 DataFrame。 myList = [[‘a’, 10, 1.1], [‘b’, 20, 2.2], [‘c’, 30,…

人工智能 2023年7月4日
0061
python opencv实现找到图像的轮廓，填充颜色

我想找到图片中的闭合圈，然后填充颜色所需要的cv函数： 1。OpenCV提供的findContours()方法可以通过计算图像梯度来判断出图像的边缘，然后将边缘的点封装成数组返回…

人工智能 2023年6月17日
0098
关联分析—Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度

Apriori算法和FPGrowth算法挖掘规则计算频繁项间的置信度数据准备 Apriori算法： * apriori算法流程实现代码 FP-growth算法 * FP-gro…

人工智能 2023年7月17日
00105
Python 使用OpenCV计算机视觉（一篇文章从零毕业）【附带OCR文字识别项目、停车场车位智能识别项目】

OpenCV计算机视觉文章目录 OpenCV计算机视觉 * 1、参考文档 2、环境详情 3、安装 – 安装opencv-python + 报错install pypr…

人工智能 2023年5月26日
00107
语音交互（第一篇）_ 呼唤STM32让舵机转动和停止

嵌入式之路，贵在日常点滴 Original: https://blog.csdn.net/weixin_50546241/article/details/124321420Auth…

人工智能 2023年5月27日
0090
TensorFlow安装教程

目录前言一）查看GPU是否支持CUDN 二）下载CUDA 三）下载cuDNN 四）设置环境变量五）下载并安装Anaconda 六）设置TensorFlow工作环境七）确认T…

人工智能 2023年5月23日
0086
Python：SEIR传染病模型

Hello，大家好！好久没有更新了，今天给大家介绍一个非常经典的模型——SEIR传染病模型！ SEIR传染病模型模型介绍 * S、E、I、R代表的含义模型建立 – …

人工智能 2023年7月15日
00123
Dynamsoft Label Recognizer SDK FOR .CPP.NET

使用 OCR 从指定区域本地化和提取关键数据企业级文本检测和识别 SDKDynamsoft Label Recognizer SDK 从不同背景颜色、字体或文本大小的图像中准确读…

人工智能 2023年6月29日
0085
LiDAR Panoptic Segmentation 激光雷达全景分割

文章目录 A Technical Survey and Evaluation of Traditional Point Cloud Clustering Methods for L…

人工智能 2023年6月2日
00114
C++实现线性回归（入门必做）

线性回归原理讲解略或者有空过来补公式。运行结果其中蓝色的点是data.csv中的数据，红色的线就是我们通过线性回归梯度下降法拟合出来的线。 C++实现 #include #…

人工智能 2023年6月16日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31