When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanis

作者：花生_TL007 | 2024-03-09 02:37:01

踩

when shift operation meets vision transformer: an extremely simple alternati

文章目录

Abstract
Introduction
Related Work
- Shift Block
- Architecture Variants
Experiment
Ablation Study
conclusion

Abstract

论文地址：AAAI2022-https://arxiv.org/abs/2201.10801
代码地址：https://github.com/microsoft/SPACH

注意力机制并不是ViT必不可少的部分。提出将注意力机制简化为zero FLOP and zero parameter，具体来说是重新讨论了移位操作shift operation，它不包含任何参数或者算术计算，唯一的操作是再相邻特征之间交换一小部分通道。基于这种操作提出一种新的backbone, shiftViT。

Introduction

ViT为什么起作用？
一些作品认为是注意力机制促进了VIT强大的表达能力，因为它提供了一种灵活而强大的空间关系建模方法。具体而言，注意机制利用自注意矩阵来聚合任意位置的特征。与CNN中的卷积运算相比，它有两个显著的优点。

首先，这种机制为同时捕获short-和long-ranged依赖性提供了可能，并消除了卷积的局部限制。
其次，两个空间位置之间的交互动态地取决于它们自身的特征，而不是固定的卷积核。

一些研究觉得即使没有这些特性，ViT变体仍能很好地工作。

对于第一种情况，fully-global dependencies是可以避免的。比如SwinTransformer, Local ViT都提出一种局部注意机制，试图用一个小的local region来限制attention范围，实验表明，性能并没有因局部约束而下降。
此外，另一个研究方向是研究动态聚合的必要性。MLP-Mixer提出用线性投影层代替注意层，其中线性权重不是动态生成的。在这种情况下，它仍然可以在ImageNet数据集上达到领先的性能

既然全局和动态属性对ViT框架可能都不是至关重要的，那么ViT成功的根本原因是什么？为了解决这个问题，作者进一步将注意力层简化为一个非常简单的情况：没有全局感受野，没有动态性，甚至没有参数和额外计算量。本文想知道在这种极端情况下，ViT是否能保持良好的性能。

本文贡献：

提出了一种类似ViT的backbone, 其中原始注意层被一种极其简单的shift操作代替，该模型可以获得比Swin更好的性能。
分析了ViTs成功的原因。这暗示注意机制可能不是ViT发挥作用的关键因素，在今后的ViTs研究中，应认真对待其它组件。

Related Work

Swin Transformer的架构图：

本文提出的ShiftViT的架构图：

给定一个 $H * W * 3$ 的输入图像，也将图像分割为不重叠的patch，每个patch的大小为4x4像素，经过patch partition输出 $\frac H 4$ x $\frac W 4$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/213437