当前位置:   article > 正文

ICLR2022系列解读之一:基于Transformer的跨域方法CDTrans_safe self-refinement for transformer-based domain

safe self-refinement for transformer-based domain adaptation
本文解读我们ICLR2022上发表的论文《CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation》。这篇文章提出一种基于Transformer的跨域方法:CDTrans。它使用Transformer中的CrossAttention机制来实现SourceDomain和TargetDomain特征对齐。具体来说,在传统方法给TargetDomain打伪标签的过程中难免存在噪声。由于噪声的存在,需要对齐的Source和Target的图片对可能不属于同一类,强行对齐会对训练产生很大的负面影响。该方法经过实验发现Transformer中的CrossAttention可以有效避免噪声给对齐造成的影响。CrossAttention让模型更多的关注Source和Target图片对中相似的信息。换句话说,即使图片对不属于同一类,被拉近的也只会是两者相似的部分。因此,CDTrans具有一定的抗噪能力。最终实验也表明CDTrans的效果大幅领先SOTA方法。

论文链接:CDTrans: Cross-domain Transformer for Unsupervised Domain Adaptation​

代码链接:https://github.com/CDTrans/CDTrans

一、前言

大多数现有的UDA方法都集中在学习域特征表示上,希望能够学习到一个跟类别种类相关的而跟域无关的特征。目前的研究无论是从域层面(粗粒度)还是类别层面(细粒度)上的特征对齐操作,都是使用基于卷积神经网络(CNN)的框架。大体上主流的解决思路有两种,分别是基于分布度量一致性约束的方法和基于对抗学习的方法。具有代表性的技术分别是MMD[1] 和DANN[2] 。

左右图分别是MMD和DANN的网络结构图

在最近的一些研究进展中,基于类别层面的UDA的方法中一个主流思路是在target数据上得到伪标签,用伪标签训练模型。但是一个比较重要的问题是,这些伪标签通常存在一定的噪音,不可避免地会影响UDA的性能。

随着Transformer在各种任务中的成功,特别是MulT [3]和CrossViT [4]等基于transformer的工作分别在多模态和多尺度上取得成功,证明了Cross Attention可以处理不同形式的内容,可以用来对齐不同尺度或者不同模态的数据。所以我们希望借助Transformer的Cross Attention机制来处理UDA任务里面的不同域的特征。CrossViT 模型的输入是同一张图片的不同尺度下的图片patch,MulT 模型输入的是同一种含义下不同模态的数据,他们两者的数据都具有含义一致性,即数据在不同的数据表现形式(多尺度或者多模态)下,表达的含义是一致的。

左右图分别是MulT和CrossViT的Cross Attention 机制

我们把Source域和Target域的图片看作不同的数据表现形式,拉近两个域的分布的过程就是追求含义一致性的过程。所以使用Transformer来解决跨域(Domain Adaption, DA)的问题。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/727677
推荐阅读
相关标签
  

闽ICP备14008679号