T2T-ViT：在ImageNet上从头训练视觉Transformer_mirrors / yitu-opensource / t2t-vit 路 gitcode

作者：凡人多烦事01 | 2024-03-16 12:45:41

踩

mirrors / yitu-opensource / t2t-vit 路 gitcode

本文提出一种新的Tokens到Token 视觉Transformer（T2T-ViT）！性能更快更强，将原始ViT的参数和MAC减少200％，性能优于ViT、ResNet等网络，代码刚刚开源！

昨天才推了一个CNN+Transformer的新backbone：CNN+Transformer！谷歌提出BoTNet：新主干网络！在ImageNet上达84.7%，今天又来了一个新工作，CV圈太内卷了！

不过这篇论文中并没有在目标检测、实例分割等下游任务上的充足实验数据，如果加上相关分析就更好了，毕竟现在"backbone"可不好被review
注1：文末附【Transformer】流群

注2：整理不易，欢迎点赞，支持分享！

在这里插入图片描述

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/249564