当前位置:   article > 正文

T2T-ViT:在ImageNet上从头训练视觉Transformer_mirrors / yitu-opensource / t2t-vit 路 gitcode

mirrors / yitu-opensource / t2t-vit 路 gitcode

本文提出一种新的Tokens到Token 视觉Transformer(T2T-ViT)!性能更快更强,将原始ViT的参数和MAC减少200%,性能优于ViT、ResNet等网络,代码刚刚开源!

昨天才推了一个CNN+Transformer的新backbone:CNN+Transformer!谷歌提出BoTNet:新主干网络!在ImageNet上达84.7%,今天又来了一个新工作,CV圈太内卷了!

不过这篇论文中并没有在目标检测、实例分割等下游任务上的充足实验数据,如果加上相关分析就更好了,毕竟现在"backbone"可不好被review
注1:文末附【Transformer】流群

注2:整理不易,欢迎点赞,支持分享!

在这里插入图片描述

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/249564
推荐阅读
相关标签
  

闽ICP备14008679号