赞
踩
必读文章:https://blog.csdn.net/qq_37541097/article/details/121119988
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
论文:https://arxiv.org/abs/2103.14030
代码:https://github.com/microsoft/Swin-Transformer
这篇文章介绍了一种名为Swin Transformer的新型视觉Transformer模型,它可以作为计算机视觉的通用骨干网络。文章指出,将Transformer从语言领域转移到视觉领域存在一些挑战,其中之一是视觉元素的尺度变化较大,与语言Transformer中固定尺度的标记不同。为了解决这个问题,作者提出了一种层次化的Transformer,使用了移动窗口的方式计算表示。移动窗口方案通过将自注意力计算限制在非重叠的局部窗口中,提高了计算效率,并允许窗口之间进行连接。这种层次化架构具有在不同尺度上建模的灵活性,并且与图像尺寸的计算复杂度呈线性关系。Swin Transformer适用于各种视觉任务,包括图像分类、目标检测和语义分割。实验证明,Swin Transformer在这些任务上的性能明显优于之前的Transformer模型,并且具有相似的计算延迟。文章还介绍了Swin T
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。