当前位置:   article > 正文

Point Transformer 论文阅读笔记

Point Transformer 论文阅读笔记

本文主要提出一种处理点云数据的transformer架构,与经典transformer block不同,本文使用vector attention,并提出新的position encoding。同时分别介绍了用于点云分类和点云语义分割的 point transformer网络模型。(要复习期末了,先记录到这里,后续有时间继续完善)

1、scalar attention与vector attention区别

paper: https://hszhao.github.io/papers/cvpr20_san.pdf
code: https://github.com/hszhao/SAN

scalar attention公式:
在这里插入图片描述
vector attention公式:
在这里插入图片描述
其中 x i x_i xi是输入的特征,作为Query, Key和Value, y i y_i yi为输出。 φ ( ⋅ ) \varphi(·) φ(), ψ ( ⋅ ) \psi(·) ψ() α ( ⋅ ) \alpha(·) α()分别表示特征变换,比如 MLP ρ ( ⋅ ) \rho(·) ρ()表示归一化操作,比如 softmax δ \delta δ表示位置编码, 此处有一个疑惑的点是,在vit中,位置编码通常直接与输入的图像特征相加,再进行后续的attention操作,在此处却与attention结合在一起,不是非常理解。

2、Point Transformer Layer

在这里插入图片描述
在这里插入图片描述

3、Position Encodeing

在这里插入图片描述
其中 θ ( ⋅ ) \theta(·) θ()表示具有两个线性层和一个ReLU的 MLP

4、residual point transformer block

在这里插入图片描述
加入了残差连接

5、Network Architecture

在这里插入图片描述
网络架构和具体参数如图所示,值得注意的是,因为语义分割要比分类复杂很多,所以网络结构和参数量都要大很多。

5.1、Transition down

在这里插入图片描述

5.2、Transition up

在这里插入图片描述

6、Ablation Study

在这里插入图片描述
很有趣,k值并不是越大越好,当k大于一定范围时,会有一些相关度不高的点被包含在内作为噪声,从而影响整体精度。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/788414
推荐阅读
相关标签
  

闽ICP备14008679号