赞
踩
论文链接:Deformable DETR: Deformable Transformers for End-to-End Object Detection
代码链接:https://github.com/fundamentalvision/Deformable-DETR
出处:ICLR2021 Oral
DETR 的提出,改善了之前的方法需要大量手工设计操作的局面(如 anchor 和 NMS),并且首次建立了一个完整的端到端的检测器。
但 DETR 有两个明显的问题:收敛慢、对小目标效果不好
Deformable DETR 的出发点:
Deformable DETR 的贡献:
Deformable DETR 的优势:
在这里我们先看一看可变形卷积:
就是在基础卷积的基础上,给每个位置学习一个偏差,也就是每个位置都增加了一个偏移量,能够让网络聚焦于感兴趣的位置
可变形卷积这种形变不是发生在卷积核,而是发生在原图产生了 offset 偏移,在经过正常卷积就达到可变卷积的效果,也就是特征偏移+正常卷积。
1、Deformable Attention Module
一般来说,使用 Transformer attention 能够看到整个特征图中的所有特征(因为每个位置都会和其他所有位置求取注意力特征),这样计算量自然就会很大。
受启发与可变形卷积,deformable attention module 如图 2 所示,无论原始的特征图多大,deformable attention module 都只会关注 reference point (橘色小框)附近的少数位置。
所以对于每个 query,只会分配少数的 key,那么下面这两个问题就可以解决:
Deformable Attention Feature 如下:
2、Multi-scale Deformable Attention Module:
3、Deformable Transformer Encoder:
作者使用上面提出的多尺度 attention 模块代替了 DETR 中的 attention 模块,encoder 的输入和输出是具有相同分辨率的多尺度特征图 { x l } l = 1 L − 1 ( L = 4 ) \{x^l\}_{l=1}^{L-1}(L=4) {xl}l=1L−1(L=4)。encoder 中,作者从抽取了 Resnet 中从 C 3 C_3 C3到 C 5 C_5 C5 stage 的输出特征图,其中 C l C_l Cl 的分辨率比输入特征低 2 l 2^l 2l。
encoder 的输出是和输入分辨率相同的特征,query 和 key 都是从这些多尺度特征图中抽取的,并且作者增加了一个 scale-level embedding e l e_l el 来区分 query pixel 所来自的尺度,且该 scale-level embedding { e l } l = 1 L \{e_l\}_{l=1}^{L} {el}l=1L 是随机初始化并且参与训练的。
4、Deformable Transformer Decoder:
在 decoder 中,同时存在 cross-attention 和 self-attention。
因为 deformable attention 模块是为了将卷积特征图看做 key elements 一样处理,所以作者只替换了 cross-attention 模块为 deformable attention,
为了了解 deformable detr 是通过关注哪里而得到的检测结果,作者绘制了最后一层预测结果中的每个元素的梯度绝对值(包括中心点,宽高,类别)如图5。
根据 Taylor 理论,梯度绝对值可以反应输出会有多大改变,即可以说明模型主要依赖哪些像素来预测每个项目。
从可视化可以看出,deformable detr 会关注在目标的末端区域,类似于 detr。
此外,deformable detr 在 x 轴方向和 w 上关注左右两边的边界,在 y 轴方向和 h 上关注上下的边界,且 deformable detr 同时会关注目标的内部来预测其类别。
2、多尺度 deformable attention 可视化
为了更好的理解多尺度形变 attention 学习到了什么,作者可视化了encoder 和 decoder 最后一层的采样点和 attention 权重,如图 6 所示。
类似于 detr 中的观点,在 encoder 中已经能够区分每个实例了。但在 decoder 中,本文的模型更关注于全部的前景目标,而非 detr 中的末端区域。
结合图5,作者猜测原因在于 deformable detr 需要末端点和内部点来确定目标的类别,同时说明 deformable detr attention 模块能够根据不同 scale 和前景的shape来调整 sampling points 和 attention weights。
从蓝色到红色,表示 attention weight 从小到大
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。