当前位置:   article > 正文

深度探讨 CrossFormer 如何解决跨尺度问题_crossformer 论文名称

crossformer 论文名称

作者丨FlyEgle
​编辑丨极市平台

论文名称: CROSSFORMER: A VERSATILE VISION TRANSFORMER BASED ON CROSS-SCALE ATTENTION
论文链接: https://arxiv.org/pdf/2108.00154.pdf
论文代码:https://github.com/cheerss/CrossFormer

1. 出发点

Transformers模型在处理视觉任务方面已经取得了很大的进展。然而,现有的vision transformers仍然不具备一种对视觉输入很重要的能力:在不同尺度的特征之间建立注意力

  • 每层的输入嵌入都是等比例的,没有跨尺度的特征;
  • 一些transformers模型为了减少self-attention的计算量,衰减了key和value的部分特征表达。

2. 怎么做

为了解决上面的问题,提出了几个模块。

  1. Cross-scale Embedding Layer (CEL)
  2. Long Short Distance Attention (LSDA)
  3. Dynamic Position Bias (DPB)

这里1和2都是为了弥补了以往架构在建立跨尺度注意力方面的缺陷,3的话和上面的问题无关,是为了使相对位置偏差更加灵活,更好的适合不定尺寸的图像和窗口。这篇文章还挺讲究,不仅提出两个模块来解决跨尺度特征attention,还附送了一个模块来搞一个搞位置编码。

阅读全文:深度探讨 CrossFormer 如何解决跨尺度问题

推荐大家关注极市平台公众号,每天都会更新最新的计算机视觉论文解读、综述盘点、调参攻略、面试经验等干货~

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/354010
推荐阅读
相关标签
  

闽ICP备14008679号