ICLR2022系列解读之一：基于Transformer的跨域方法CDTrans_safe self-refinement for transformer-based domain

作者：小丑西瓜9 | 2024-06-16 18:03:37

踩

safe self-refinement for transformer-based domain adaptation

本文解读我们ICLR2022上发表的论文《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》。这篇文章提出一种基于Transformer的跨域方法：CDTrans。它使用Transformer中的CrossAttention机制来实现SourceDomain和TargetDomain特征对齐。具体来说，在传统方法给TargetDomain打伪标签的过程中难免存在噪声。由于噪声的存在，需要对齐的Source和Target的图片对可能不属于同一类，强行对齐会对训练产生很大的负面影响。该方法经过实验发现Transformer中的CrossAttention可以有效避免噪声给对齐造成的影响。CrossAttention让模型更多的关注Source和Target图片对中相似的信息。换句话说，即使图片对不属于同一类，被拉近的也只会是两者相似的部分。因此，CDTrans具有一定的抗噪能力。最终实验也表明CDTrans的效果大幅领先SOTA方法。

论文链接：CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation

代码链接：https://github.com/CDTrans/CDTrans

一、前言

大多数现有的UDA方法都集中在学习域特征表示上，希望能够学习到一个跟类别种类相关的而跟域无关的特征。目前的研究无论是从域层面（粗粒度）还是类别层面（细粒度）上的特征对齐操作，都是使用基于卷积神经网络（CNN）的框架。大体上主流的解决思路有两种，分别是基于分布度量一致性约束的方法和基于对抗学习的方法。具有代表性的技术分别是MMD[1] 和DANN[2] 。

左右图分别是MMD和DANN的网络结构图

在最近的一些研究进展中，基于类别层面的UDA的方法中一个主流思路是在target数据上得到伪标签，用伪标签训练模型。但是一个比较重要的问题是，这些伪标签通常存在一定的噪音，不可避免地会影响UDA的性能。

随着Transformer在各种任务中的成功，特别是MulT [3]和CrossViT [4]等基于transformer的工作分别在多模态和多尺度上取得成功，证明了Cross Attention可以处理不同形式的内容，可以用来对齐不同尺度或者不同模态的数据。所以我们希望借助Transformer的Cross Attention机制来处理UDA任务里面的不同域的特征。CrossViT 模型的输入是同一张图片的不同尺度下的图片patch，MulT 模型输入的是同一种含义下不同模态的数据，他们两者的数据都具有含义一致性，即数据在不同的数据表现形式（多尺度或者多模态）下，表达的含义是一致的。

左右图分别是MulT和CrossViT的Cross Attention 机制

我们把Source域和Target域的图片看作不同的数据表现形式，拉近两个域的分布的过程就是追求含义一致性的过程。所以使用Transformer来解决跨域（Domain Adaption, DA）的问题。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/727677