当前位置:   article > 正文

【论文阅读】Point Transformer解读

point transformer


前言

1. 为什么要做这个研究?
探究Transformer在点云处理中的应用。
2. 实验方法是什么样的?
在场景分割中采用了U-net结构,包含5个编码器和5个解码器,编码器通过Transition Down + Point Transformer Block来降采样和提取特征,解码器通过Transition Up+ Point Transformer Block来上采样映射特征。
Point Transformer Block:基于vector self-attention,使用减法关系,并将位置编码 δ \delta δ加到注意向量 γ \gamma γ和变换特征 α \alpha α上。
3. 得到了什么结果?
在场景分割、目标分类和语义分割中都取得了很不错的效果,或许使用Transformer来作为提取点云特征的操作是很有效果的。

摘要

本文研究了self-attention网络在三维点云处理中的应用。作者为点云设计了self-attention层,并使用这些层来构建用于语义场景分割、语义分割和目标分类等任务的self-attention网络。在大规模语义场景分割的S3DIS数据集上,Point Transformer表现SOTA。

1.介绍

Transformer的核心self-attention操作本质上是集合操作:它对输入元素的排列和基数不变。因此,将self-attention应用于三维点云是非常自然的,因为点云本质上就是嵌入在三维空间中的集合。
作者研究了self-attention算子的形式,self-attention在每个点周围的局部邻域中的应用,以及网络中位置信息的编码。由此产生的网络完全基于self-attention和逐点操作。结果表明Point Transformer在3D深度学习任务中非常有效。
作者贡献:

  • 为点云处理设计了一个高表现力的Point Transformer层。该层对于排列和基数是不变的,因此本质上适合于点云处理。
  • 基于Point Transformer层,构建了高性能的Point Transformer网络,用于点云的分类和密集预测。这些网络可以作为三维场景理解的通用主干。
  • 作者报告了在多个领域和数据集上的大量实验,进行了对照研究,以检查Point Transformer设计中的具体选择,并在多个高度竞争的基准上设定了新的技术水平,优于之前的工作。

2.相关工作

此前三维点云处理方法:基于投影的、基于体素的和基于点的网络。

3.Point Transformer

首先回顾一下 Transformer和self-attention的一般公式,然后给出用于3D点云处理的Point Transformer层,最后作者提出了3D场景理解网络结构。

3.1.Background

self-attention算子分为两种类型:scalar attention和vector attention。
X = { x i } i \mathcal{X} = \{x_i\}_i X={ xi}i为一组特征向量,标准scalar attention点积注意层可以表示如下:
在这里插入图片描述
其中 y i y_i yi是输出特征。 ϕ , ψ , α \phi,\psi,\alpha

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/328358
推荐阅读
相关标签
  

闽ICP备14008679号