当前位置:   article > 正文

2022 计算机视觉顶会论文----目标检测_帧间特征目标检测算法顶会

帧间特征目标检测算法顶会

1.Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification    https://arxiv.org/abs/2205.02151

用于细粒度视觉分类的双交叉注意学习物体重新识别

        最近,自我注意机制在各种NLP和CV任务中表现出令人印象深刻的性能,这可以

帮助捕获序列特征并导出全局信息在这项工作中,我们探索了如何扩展自关注模块,以便更好地学习用于识别细粒度对象的细微特征嵌入,例如鸟类种类或人的身份。为此,我们建议一种双交叉注意力学习(DCAL)算法,用于协调自注意力学习。首先,我们建议全局-局部交叉注意(GLCA)增强全局图像和局部高响应区域之间的相互作用,这有助于增强识别的空间分辨线索。其次,我们提出了成对交叉注意(PWCA)来建立交互在图像对之间。PWCA可以调节注意力通过将另一图像视为干扰物来学习图像,并将在推理过程中移除。我们观察到DCAL可以减少误导性的关注,并传播。注意:发现更多互补部分的反应用于识别。我们对细粒度视觉分类和对象重新识别进行了广泛的评估。实验表明,DCAL的性能与最先进的方法,并不断改进自我注意力基线,例如,在MSMT17上分别超过DeiT Tiny和ViTBase 2.8%和2.4%的mAP。

2. Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism 

基于原型任务关联和门控机制的连续目标检测

https://arxiv.org/pdf/2205.03055.pdf

源码:GitHub - dkxocl/ROSSETA

        持续学习是一个具有挑战性的现实问题,用于在提供数据时构建成熟的人工智能系统
以流式方式。尽管最近在连续分类方面取得了进展,但由于每个图像中对象的大小和数量不同,连续对象检测的研究受到阻碍。不同于以前的作品所有任务的整个网络,在这项工作中,我们呈现
一种简单灵活的基于原型任务相关引导门控的连续目标检测框架机制(罗塞塔)。具体来说,一个统一的框架同时引入任务感知门来自动选择特定任务的子模型。这样,通过存储相应的子模型权重,可以连续存储各种知识在该系统中。为了使ROSETTA自动确定哪些经验是可用的和有用的,一种典型的任务相关引导门控分集控制器(GDC)用于自适应地调整基于类特定原型的新任务的门。GDC模块计算类间相关矩阵,以描述交叉任务相关性,从而激活更多。如果存在显著的域间隙,则新任务的独占门观察到。COCO-VOC的综合实验,KITTI Kitchen、VOC类增量检测和四项任务的顺序学习表明ROSETTA产生基于任务和基于类的连续对象检测的最新性能。

3.Learning to Affiliate: Mutual Centralized Learning for Few-shot Classification

        少样本学习 (FSL) 旨在学习一个分类器,该分类器可以很容易地适应训练期间未见的新任务,只给出几个例子。为了处理少样本情况下的有限数据问题,最近的方法倾向于共同使用一组局部特征来密集表示图像,而不是使用混合的全局特征。他们通常探索 FSL 中的单向查询到支持范式,例如,为每个查询特征找到最近/最佳支持特征,并聚合这些局部匹配以进行联合分类。在本文中,我们提出了一种新方法相互集中学习(MCL),以在双向范式中完全关联两个不相交的密集特征集。我们将每个局部特征与一个粒子相关联,该粒子可以通过隶属关系在离散特征空间中双向随机游走。为了估计类概率,我们提出了特征的可访问性,以衡量在马尔可夫过程中对该类的支持特征的预期访问次数。我们将我们的方法与学习联盟网络的中心性联系起来,并通过突出集中的本地特征来展示其插入现有方法的能力。实验表明,我们的方法在 miniImageNet 和 tieredImageNet 上都达到了最先进的水平。

4.HyperDet3D: Learning a Scene-conditioned 3D Object Detector

https://arxiv.org/abs/2204.05599

        图书馆的浴缸、办公室的水槽、洗衣房的床——与直觉相反的场景表明,场景为 3D 对象检测提供了重要的先验知识,有助于消除对相似对象的模糊检测。在本文中,我们提出 HyperDet3D 来探索用于 3D 对象检测的场景条件先验知识。现有方法力求在没有场景条件知识的情况下更好地表示局部元素及其关系,这可能仅基于对单个点和对象候选的理解而导致歧义。相反,HyperDet3D 通过场景条件超网络同时学习与场景无关的嵌入和特定于场景的知识。更具体地说,我们的 HyperDet3D 不仅探索各种 3D 场景的可共享摘要,而且还在测试时使检测器适应给定的场景。我们提出了一种判别性多头场景特定注意(MSA)模块,以根据场景条件知识的融合动态控制检测器的层参数。我们的 HyperDet3D 在 ScanNet 和 SUN RGB-D 数据集的 3D 对象检测基准上取得了最先进的结果。此外,通过跨数据集评估,我们表明获得的场景条件先验知识在面对具有域间隙的 3D 场景时仍然有效。我们的 HyperDet3D 在 ScanNet 和 SUN RGB-D 数据集的 3D 对象检测基准上取得了最先进的结果。此外,通过跨数据集评估,我们表明获得的场景条件先验知识在面对具有域间隙的 3D 场景时仍然有效。我们的 HyperDet3D 在 ScanNet 和 SUN RGB-D 数据集的 3D 对象检测基准上取得了最先进的结果。此外,通过跨数据集评估,我们表明获得的场景条件先验知识在面对具有域间隙的 3D 场景时仍然有效。

5.Vision Transformer with Deformable Attention

https://arxiv.org/abs/2201.00520

      Transformer 最近在各种视觉任务上表现出卓越的表现。大的、有时甚至是全局的感受野赋予 Transformer 模型比 CNN 模型更高的表示能力。然而,简单地扩大感受野也会引起一些担忧。一方面,使用密集注意力,例如在 ViT 中,会导致过多的内存和计算成本,并且特征可能会受到感兴趣区域之外的不相关部分的影响。另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力与数据无关,可能会限制对长期关系建模的能力。为了缓解这些问题,我们提出了一种新颖的可变形自我注意模块,其中自我注意中键和值对的位置以数据相关的方式选择。这种灵活的方案使自注意力模块能够专注于相关区域并捕获更多信息特征。在此基础上,我们提出了 Deformable Attention Transformer,这是一种具有可变形注意力的通用主干模型,用于图像分类和密集预测任务。大量实验表明,我们的模型在综合基准测试中取得了持续改进的结果。

6.Accelerating DETR Convergence via Semantic-Aligned Matching\​​​​https://arxiv.org/abs/2203.06883icon-default.png?t=N7T8https://arxiv.org/abs/2203.06883

        最近开发的 DEtection TRansformer (DETR) 通过消除一系列手工制作的组件,建立了一种新的对象检测范式。然而,DETR 的收敛速度极慢,这显着增加了训练成本。我们观察到收敛缓慢主要归因于将对象查询与不同特征嵌入空间中的目标特征进行匹配的复杂性。本文介绍了 SAM-DETR,这是一种语义对齐匹配 DETR,它在不牺牲其准确性的情况下极大地加速了 DETR 的收敛。SAM-DETR 从两个角度解决了收敛问题。首先,它将对象查询投影到与编码图像特征相同的嵌入空间中,其中匹配可以通过对齐的语义有效地完成。第二,它显式地搜索具有最具辨别力的特征的显着点进行语义对齐匹配,这进一步加快了收敛速度并提高了检测精度。SAM-DETR 就像即插即用一样,很好地补充了现有的融合解决方案,但只引入了轻微的计算开销。大量实验表明,所提出的 SAM-DETR 实现了卓越的收敛性以及具有竞争力的检测精度。实现代码可在 大量实验表明,所提出的 SAM-DETR 实现了卓越的收敛性以及具有竞争力的检测精度。实现代码可在 大量实验表明,所提出的 SAM-DETR 实现了卓越的收敛性以及具有竞争力的检测精度。

7.Swin Transformer V2: Scaling Up Capacity and Resolution

https://arxiv.org/pdf/2111.09883.pdf

        大规模 NLP 模型已被证明可以显着提高语言任务的性能,并且没有饱和迹象。它们还展示了与人类一样的惊人的少发能力。本文旨在探索计算机视觉中的大规模模型。我们解决了大型视觉模型训练和应用中的三个主要问题,包括训练不稳定性、预训练和微调之间的分辨率差距以及对标记数据的渴望。提出了三种主要技术:1)残差后范数方法结合余弦注意提高训练稳定性;2) 一种对数空间连续位置偏差方法,可有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务;3) 一种自我监督的预训练方法 SimMIM,以减少对大量标记图像的需求。× 1,536 分辨率。它在 ImageNet-V2 图像分类、COCO 对象检测、ADE20K 语义分割和 Kinetics-400 视频动作分类等 4 个具有代表性的视觉任务上创造了新的性能记录。另请注意,我们的训练比 Google 的十亿级视觉模型高效得多,后者消耗的标记数据少 40 倍,训练时间少 40 倍。

 8. 
Dense Learning based Semi-Supervised Object Detection

https://arxiv.org/abs/2204.07300

半监督目标检测(SSOD)旨在借助大量未标记数据促进目标检测器的训练和部署。尽管已经提出了各种基于自训练和基于一致性正则化的 SSOD 方法,但它们中的大多数都是基于锚的检测器,而忽略了在许多实际应用中更需要无锚检测器的事实。在本文中,我们打算弥合这一差距,并提出一种基于密集学习(DSL)的无锚 SSOD 算法。具体来说,我们通过引入几种新技术来实现这一目标,包括用于分配多级和准确的密集像素级伪标签的自适应过滤策略,用于产生稳定和精确伪标签的聚合教师,以及用于提高检测器泛化能力的尺度和混洗补丁之间的不确定性-一致性-正则化项。在 MS-COCO 和 PASCAL-VOC 上进行了广泛的实验,结果表明我们提出的 DSL 方法记录了新的最先进的 SSOD 性能,大大超过了现有方法。

9.C2AM Loss: Chasing a Better Decision Boundary for Long-Tail Object Detection

10.Optimal Correction Cost for Object Detection Evaluationhttps://arxiv.org/abs/2203.14438icon-default.png?t=N7T8https://arxiv.org/abs/2203.14438

平均精度 (mAP) 是对象检测的主要评估指标。尽管对象检测具有广泛的应用,但 mAP 会根据排名实例检索的性能来评估检测器。评估任务的这种假设不适合某些下游任务。为了缓解下游任务和评估场景之间的差距,我们提出了最优校正成本(OC-cost),它在图像级别评估检测精度。OC-cost 计算将检测校正为地面事实的成本,作为准确度的衡量标准。成本是通过解决检测和地面实况之间的最优传输问题获得的。与 mAP 不同,OC-cost 旨在适当地惩罚误报和误报检测,并且数据集中的每张图像都被平等对待。我们的实验结果验证了 OC-cost 比基于排名的度量(即单个图像的 mAP)更符合人类偏好。我们还表明,检测器在不同数据拆分上的 OC 成本排名比 mAP 更一致。我们的目标不是用 OC-cost 代替 mAP,而是提供一个额外的工具来从另一个方面评估检测器。为了帮助未来的研究人员和开发人员选择目标度量,我们提供了一系列实验来阐明 mAP 和 OC-cost 的不同之处。我们的目标不是用 OC-cost 代替 mAP,而是提供一个额外的工具来从另一个方面评估检测器。为了帮助未来的研究人员和开发人员选择目标度量,我们提供了一系列实验来阐明 mAP 和 OC-cost 的不同之处。我们的目标不是用 OC-cost 代替 mAP,而是提供一个额外的工具来从另一个方面评估检测器。为了帮助未来的研究人员和开发人员选择目标度量,我们提供了一系列实验来阐明 mAP 和 OC-cost 的不同之处。

11.Mobile-Former: Bridging MobileNet and Transformer

https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_Mobile-Former_Bridging_MobileNet_and_Transformer_CVPR_2022_paper.pdf

12.Few-Shot Object Detection with Fully Cross-Transformer

https://arxiv.org/abs/2203.15021

        少样本目标检测 (FSOD) 旨在使用很少的训练示例检测新目标,最近在社区中引起了极大的研究兴趣。已经证明基于度量学习的方法使用基于双分支的孪生网络对这项任务有效,并计算图像区域和小样本示例之间的相似性以进行检测。然而,在之前的工作中,两个分支之间的交互只限于检测头,而剩下的数百层用于单独的特征提取。受最近关于视觉转换器和视觉语言转换器的工作的启发,我们提出了一种新颖的基于完全交叉转换器的 FSOD 模型 (FCT),方法是将交叉转换器整合到特征主干和检测头中。提出了非对称批处理交叉注意来聚合来自具有不同批处理大小的两个分支的关键信息。我们的模型可以通过引入多级交互来改进两个分支之间的少样本相似性学习。PASCAL VOC 和 MSCOCO FSOD 基准的综合实验证明了我们模型的有效性。 

13.Kernelized Few-shot Object Detection with Efficient Integral Aggregation

https://openaccess.thecvf.com/content/CVPR2022/papers/Zhang_Kernelized_Few-Shot_Object_Detection_With_Efficient_Integral_Aggregation_CVPR_2022_paper.pdf

14.MViTv2: Improved Multiscale Vision Transformers for Classification and Detection

https://arxiv.org/abs/2112.01526

        在本文中,我们研究了多尺度视觉转换器 (MViTv2) 作为图像和视频分类以及目标检测的统一架构。我们提出了 MViT 的改进版本,它结合了分解的相对位置嵌入和残差池连接。我们将该架构实例化为五种尺寸,并针对 ImageNet 分类、​​COCO 检测和 Kinetics 视频识别对其进行评估,在这些方面它的表现优于之前的工作。我们进一步将 MViTv2s 的集中注意力与窗口注意力机制进行比较,在这种机制中,它在准确性/计算方面优于后者。MViTv2 在 3 个领域具有最先进的性能:ImageNet 分类准确率为 88.8%,COCO 对象检测准确率为 58.7,Kinetics-400 视频分类准确率为 86.1%。 

15.Integrative Few-Shot Learning for Classification and Segmentation

        我们介绍了少样本分类和分割 (FS-CS) 的综合任务,该任务旨在通过几个示例给出目标类时对查询图像中的目标对象进行分类和分割。该任务结合了两个传统的小样本学习问题,小样本分类和分割。FS-CS 将它们推广到具有任意图像对的更真实的情节,其中每个目标类可能存在也可能不存在于查询中。为了解决这个任务,我们提出了用于 FS-CS 的集成少样本学习 (iFSL) 框架,该框架训练学习者构建用于多标签分类和像素分割的类别前景图。我们还开发了一个有效的 iFSL 模型,注意力挤压网络 (ASNet),它利用深度语义相关性和全局自注意力来生成可靠的前景图。

https://arxiv.org/abs/2203.15712

16.Constrained Few-shot Class-incremental Learning

        不断从新数据中学习新类而不忘记旧类的先前知识是一个非常具有挑战性的研究问题。此外,这种学习必须尊重某些内存和计算约束,例如 (i) 每个类的训练样本仅限于几个,(ii) 学习新类的计算成本保持不变,以及 (iii)模型的内存占用最多随观察到的类数线性增长。为了满足上述限制,我们提出了 C-FSCIL,它在架构上由一个冻结的元学习特征提取器、一个可训练的固定大小的全连接层和一个可重写的动态增长内存组成,该内存存储与遇到的向量数量一样多的向量类。C-FSCIL 提供了三种更新模式,在学习新类的准确性和计算内存成本之间进行权衡。C-FSCIL 利用超维嵌入,允许在向量空间中以最小的干扰持续表达比固定维度更多的类。通过使用新颖的损失函数将它们准正交地对齐,进一步提高了类向量表示的质量。在 CIFAR100、miniImageNet 和 Omniglot 数据集上的实验表明,C-FSCIL 在准确度和压缩方面优于基线。它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 C-FSCIL 利用超维嵌入,允许在向量空间中以最小的干扰持续表达比固定维度更多的类。通过使用新颖的损失函数将它们准正交地对齐,进一步提高了类向量表示的质量。在 CIFAR100、miniImageNet 和 Omniglot 数据集上的实验表明,C-FSCIL 在准确度和压缩方面优于基线。它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 C-FSCIL 利用超维嵌入,允许在向量空间中以最小的干扰持续表达比固定维度更多的类。通过使用新颖的损失函数将它们准正交地对齐,进一步提高了类向量表示的质量。在 CIFAR100、miniImageNet 和 Omniglot 数据集上的实验表明,C-FSCIL 在准确度和压缩方面优于基线。它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 通过使用新颖的损失函数将它们准正交地对齐,进一步提高了类向量表示的质量。在 CIFAR100、miniImageNet 和 Omniglot 数据集上的实验表明,C-FSCIL 在准确度和压缩方面优于基线。它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 通过使用新颖的损失函数将它们准正交地对齐,进一步提高了类向量表示的质量。在 CIFAR100、miniImageNet 和 Omniglot 数据集上的实验表明,C-FSCIL 在准确度和压缩方面优于基线。它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。我们的代码可在 它还通过在 1200 个基类之上学习 423 个新类,以小于 1.6% 的准确率下降,扩大到在这个小样本设置中尝试过的最大问题规模。

https://arxiv.org/pdf/2203.16588.pdf

17.On the Integration of Self-Attention and Convolution

https://arxiv.org/abs/2111.14556

        卷积和自注意力是表示学习的两种强大技术,它们通常被认为是两种截然不同的对等方法。在本文中,我们表明它们之间存在很强的潜在关系,因为这两种范式的大部分计算实际上是通过相同的操作完成的。具体来说,我们首先展示了内核大小为 kxk 的传统卷积可以分解为 k^2 个单独的 1x1 卷积,然后进行移位和求和操作。然后,我们将自注意力模块中查询、键和值的投影解释为多个 1x1 卷积,然后计算注意力权重和值的聚合。因此,两个模块的第一阶段都包含类似的操作。更重要的是,与第二阶段相比,第一阶段贡献了主要的计算复杂度(通道大小的平方)。这种观察自然会导致这两种看似不同的范式的优雅整合,即混合模型既享有自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力对应物相比具有最小的计算开销. 大量实验表明,我们的模型在图像识别和下游任务的竞争基线上取得了持续改进的结果。代码和预训练模型将在 一种混合模型,它同时具有自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力对应物相比具有最小的计算开销。大量实验表明,我们的模型在图像识别和下游任务的竞争基线上取得了持续改进的结果。代码和预训练模型将在 一种混合模型,它同时具有自注意力和卷积(ACmix)的好处,同时与纯卷积或自注意力对应物相比具有最小的计算开销。大量实验表明,我们的模型在图像识别和下游任务的竞争基线上取得了持续改进的结果。 

18.End-to-End Object Detection with Fully Convolutional Network

https://arxiv.org/abs/2012.03544

        基于全卷积网络的主流目标检测器取得了令人瞩目的性能。虽然他们中的大多数人仍然需要手工设计的非最大抑制 (NMS) 后处理,但这阻碍了完全端到端的训练。在本文中,我们对丢弃 NMS 进行了分析,结果表明正确的标签分配起着至关重要的作用。为此,对于全卷积检测器,我们引入了预测感知的一对一 (POTO) 标签分配用于分类,以实现端到端检测,从而获得与 NMS 相当的性能。此外,提出了一种简单的 3D Max Filtering (3DMF) 来利用多尺度特征并提高局部区域卷积的可辨别性。有了这些技巧,我们的端到端框架在 COCO 和 CrowdHuman 数据集上通过 NMS 与许多最先进的检测器实现了竞争性能。

ECCV 2021

1.Rethinking Transformer-based Set Prediction for Object Detection

        DETR 是最近提出的一种基于 Transformer 的方法,它将对象检测视为一个集合预测问题并实现了最先进的性能,但需要超长的训练时间才能收敛。在本文中,我们调查了 DETR 训练中优化困难的原因。我们的检查揭示了导致 DETR 收敛缓慢的几个因素,主要是匈牙利损失和 Transformer 交叉注意机制的问题。为了克服这些问题,我们提出了两种解决方案,即 TSP-FCOS(基于 Transformer 的 FCOS 集合预测)和 TSP-RCNN(基于 Transformer 的 RCNN 集合预测)。实验结果表明,所提出的方法不仅比原始的 DETR 收敛速度快得多,而且在检测精度方面也明显优于 DETR 和其他基线。 

https://arxiv.org/abs/2011.10881

2.Dynamic DETR: End-to-End Object Detection with Dynamic Attention

https://openaccess.thecvf.com/content/ICCV2021/papers/Dai_Dynamic_DETR_End-to-End_Object_Detection_With_Dynamic_Attention_ICCV_2021_paper.pdf         在本文中,我们通过在编码器和解码器阶段引入动态注意,提出了一种新的动态检测方法
以打破其对小特征分辨率和慢训练收敛的两个限制。第一个限制是,由于变压器编码器中自注意模块的二次计算复杂性,我们提出了一种动态编码器来近似变压器编码器的注意机制,使用基于卷积的动态编码器。这种编码器可以动态调整基于多个因素的关注,如比例重要性、空间重要性和表示(即特征维度)重要性。为了减轻第二个限制:由于学习困难,我们通过在变换器解码器中用基于ROI的动态注意力替换交叉注意力模块。这种解码器有效地帮助变压器从粗略到精细地关注感兴趣区域,并显著降低学习困难,导致更快的收敛.我们进行了一系列实验来证明我们的优势。我们的动态DETR显著减少了训练周期(减少了14×),但导致了更好的性能(在mAP上减少了3.6)。

 3.CvT: Introducing Convolutions to Vision Transformers

https://arxiv.org/abs/2103.15808

        我们在本文中提出了一种名为卷积视觉转换器 (CvT) 的新架构,它通过将卷积引入 ViT 来提高视觉转换器 (ViT) 的性能和效率,以发挥两种设计的最佳效果。这是通过两个主要修改来实现的:包含新卷积令牌嵌入的 Transformer 层次结构,以及利用卷积投影的卷积 Transformer 块。这些变化将卷积神经网络 (CNN) 的理想特性引入了 ViT 架构(即移位、缩放和失真不变性),同时保持了 Transformer 的优点(即动态注意力、全局上下文和更好的泛化)。我们通过进行广泛的实验来验证 CvT,表明与 ImageNet-1k 上的其他 Vision Transformer 和 ResNet 相比,这种方法实现了最先进的性能,参数更少且 FLOP 更低。此外,在对较大的数据集(\例如 ImageNet-22k)进行预训练并针对下游任务进行微调时,可以保持性能提升。在 ImageNet-22k 上进行预训练,我们的 CvT-W24 在 ImageNet-1k 验证集上获得了 87.7% 的 top-1 准确率。最后,我们的结果表明,位置编码是现有视觉转换器中的关键组件,可以在我们的模型中安全地移除,从而简化更高分辨率视觉任务的设计。代码将在 \url{ 发布 在 ImageNet-22k 上进行预训练,我们的 CvT-W24 在 ImageNet-1k 验证集上获得了 87.7% 的 top-1 准确率。最后,我们的结果表明,位置编码是现有视觉转换器中的关键组件,可以在我们的模型中安全地移除,从而简化更高分辨率视觉任务的设计。代码将在 \url{ 发布 在 ImageNet-22k 上进行预训练,我们的 CvT-W24 在 ImageNet-1k 验证集上获得了 87.7% 的 top-1 准确率。最后,我们的结果表明,位置编码是现有视觉转换器中的关键组件,可以在我们的模型中安全地移除,从而简化更高分辨率视觉任务的设计。 

3.DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection

关键词:少样本

https://openaccess.thecvf.com/content/ICCV2021/papers/Qiao_DeFRCN_Decoupled_Faster_R-CNN_for_Few-Shot_Object_Detection_ICCV_2021_paper.pdf

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/348700
推荐阅读
相关标签
  

闽ICP备14008679号