赞
踩
本文主要提出一种处理点云数据的transformer架构,与经典transformer block不同,本文使用vector attention,并提出新的position encoding。同时分别介绍了用于点云分类和点云语义分割的 point transformer网络模型。(要复习期末了,先记录到这里,后续有时间继续完善)
paper: https://hszhao.github.io/papers/cvpr20_san.pdf
code: https://github.com/hszhao/SAN
scalar attention公式:
vector attention公式:
其中
x
i
x_i
xi是输入的特征,作为Query, Key和Value,
y
i
y_i
yi为输出。
φ
(
⋅
)
\varphi(·)
φ(⋅),
ψ
(
⋅
)
\psi(·)
ψ(⋅)和
α
(
⋅
)
\alpha(·)
α(⋅)分别表示特征变换,比如 MLP,
ρ
(
⋅
)
\rho(·)
ρ(⋅)表示归一化操作,比如 softmax。
δ
\delta
δ表示位置编码, 此处有一个疑惑的点是,在vit中,位置编码通常直接与输入的图像特征相加,再进行后续的attention操作,在此处却与attention结合在一起,不是非常理解。
其中
θ
(
⋅
)
\theta(·)
θ(⋅)表示具有两个线性层和一个ReLU的 MLP
加入了残差连接
网络架构和具体参数如图所示,值得注意的是,因为语义分割要比分类复杂很多,所以网络结构和参数量都要大很多。
很有趣,k值并不是越大越好,当k大于一定范围时,会有一些相关度不高的点被包含在内作为噪声,从而影响整体精度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。