【论文阅读】Point Transformer解读

作者：不正经 | 2024-03-28 03:18:19

踩

point transformer

文章目录

前言

前言

1. 为什么要做这个研究？
探究Transformer在点云处理中的应用。
2. 实验方法是什么样的？
在场景分割中采用了U-net结构，包含5个编码器和5个解码器，编码器通过Transition Down + Point Transformer Block来降采样和提取特征，解码器通过Transition Up+ Point Transformer Block来上采样映射特征。
Point Transformer Block：基于vector self-attention，使用减法关系，并将位置编码 $\delta$ 加到注意向量 $\gamma$ 和变换特征 $\alpha$ 上。
3. 得到了什么结果？
在场景分割、目标分类和语义分割中都取得了很不错的效果，或许使用Transformer来作为提取点云特征的操作是很有效果的。

摘要

本文研究了self-attention网络在三维点云处理中的应用。作者为点云设计了self-attention层，并使用这些层来构建用于语义场景分割、语义分割和目标分类等任务的self-attention网络。在大规模语义场景分割的S3DIS数据集上，Point Transformer表现SOTA。

1.介绍

Transformer的核心self-attention操作本质上是集合操作：它对输入元素的排列和基数不变。因此，将self-attention应用于三维点云是非常自然的，因为点云本质上就是嵌入在三维空间中的集合。
作者研究了self-attention算子的形式，self-attention在每个点周围的局部邻域中的应用，以及网络中位置信息的编码。由此产生的网络完全基于self-attention和逐点操作。结果表明Point Transformer在3D深度学习任务中非常有效。
作者贡献：

为点云处理设计了一个高表现力的Point Transformer层。该层对于排列和基数是不变的，因此本质上适合于点云处理。
基于Point Transformer层，构建了高性能的Point Transformer网络，用于点云的分类和密集预测。这些网络可以作为三维场景理解的通用主干。
作者报告了在多个领域和数据集上的大量实验，进行了对照研究，以检查Point Transformer设计中的具体选择，并在多个高度竞争的基准上设定了新的技术水平，优于之前的工作。

2.相关工作

此前三维点云处理方法：基于投影的、基于体素的和基于点的网络。

3.Point Transformer

首先回顾一下 Transformer和self-attention的一般公式，然后给出用于3D点云处理的Point Transformer层，最后作者提出了3D场景理解网络结构。

3.1.Background

self-attention算子分为两种类型：scalar attention和vector attention。
$\mathcal{X} = \{x_i\}_i$ 为一组特征向量，标准scalar attention点积注意层可以表示如下：
在这里插入图片描述
其中 $y_i$ 是输出特征。 $\phi,\psi,\alpha$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/328358