当前位置:   article > 正文

半监督图像分割-综述

半监督图像分割-综述

半监督图像分割-综述

论文题目:Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey

中文题目:基于伪标签的半监督语义分割研究进展

论文链接:https://arxiv.org/abs/2403.01909

论文代码:

论文团队:西北工业大学计算机科学学院

发表时间:

DOI:

引用:

引用数:

摘要

语义分割是计算机视觉中一个重要而热门的研究领域,其重点是根据图像中像素的语义对其进行分类。然而,监督式深度学习需要大量的数据来训练模型,并且逐像素标记图像的过程既耗时又费力。本文旨在对半监督语义分割领域中伪标签方法的最新研究成果进行全面和有组织的综述,从不同的角度对其进行分类,并针对具体的应用领域提出具体的方法。此外,我们还探索了伪标签技术在医学和遥感图像分割中的应用。最后,针对目前存在的挑战,提出了未来可行的研究方向。

1. 简介

语义分割是计算机视觉领域中对图像中每个像素进行分类的重要研究方向,在医学图像分割[Li et al ., 2023a]和遥感图像分割[Wang et al ., 2022a]等特定领域有着广泛的应用。在过去的几年里,许多工作在提高语义分割任务的有效性方面取得了重大进展。然而,监督式深度学习需要大量的数据来训练模型,并且逐像素标记图像的过程既耗时又费力。研究指出,对cityscape数据集中的一张精细标记图像进行注释需要花费数小时[Cordts等人,2016]。由于训练标签的成本,完全监督模型的性能可能无法得到显著提高。近年来,通过大量的相关研究,半监督学习已被应用于语义分割。

伪标签方法是半监督学习领域的一种知名技术,首次出现在[Lee等人,2013]中,并在最近的计算机视觉研究中得到了普及,包括领域自适应[Li等人,2023b],语义分割[Wu等人,2023]等,这些方法因其简单和令人印象深刻的性能而受到青睐。

image-20240522103124333

该过程如图1所示。在语义分割中,伪标签方法被认为是一种比一致正则化更可靠的选择,而一致正则化可能受到不同程度的数据增强的影响。伪标签技术以其稳定性,可解释性和易于实现而闻名,使其成为一个具有越来越大潜力的研究领域。

在半监督域中使用伪标签方法已经进行了广泛的研究。然而,目前的一项调查[pelez - vegas ’ et al, 2023]仅仅对半监督语义分割技术进行了系统的分类,缺乏对伪标签方法的详细总结和分析。这一不足促使我们进行一项调查。

我们调查的主要目的是对最近的研究提供一个全面和有组织的总结,根据不同的观点对研究进行分类,并为特定的应用领域提出具体的方法。我们的主要贡献是:1。本文对半监督语义分割的伪标签方法的最新进展进行了综述。2. 具体来说,我们研究了伪标签方法的三个关键方面,包括模型结构的设计、伪标签的改进和优化技术。3. 此外,我们还讨论了该领域存在的需要关注的挑战,并提出了未来研究的潜在方向。

2. 初步和问题制定问题定义

在半监督语义分割的背景下,目标是通过考虑标记和未标记的数据集来最小化损失。标记的数据集,表示为 D l = { ( x l , u l ) } p D_l=\{(x_l,u_l)\}^p Dl={(xl,ul)}p,由p个具有相应标签的样本组成。未标记数据集,记为 D u = { x u } q D_u=\{x_u\}^q Du={xu}q,由q个图像组成,其中q显著大于p。损失函数L定义为两项的和: L l L^l Ll表示标记数据集上的损失, L u L^u Lu表示未标记数据集上的损失
L = L l + λ L u L=L^l+\lambda L^u L=Ll+λLu
其中 λ \lambda λ表示平衡权衡的超参数。该超参数既可以事先指定一个固定值,也可以在训练过程中自适应调整。

有监督损失 L l L^l Ll通常是指预测输出与相应的 y l y_l yl之间计算的交叉熵损失,而无监督损失 L u L^u Lu可以根据所使用的具体方法采取各种形式。

最简单的伪标签方法是:首先,我们使用交叉熵损失 L l L^l Ll在标记数据集 D l D_l Dl上训练初始模型M0。这个训练过程为未标记的数据集 D u D_u Du生成一个伪标记数据集 D ^ u = { ( x u , M 0 ( x u ) ) } q \hat{D}_u=\{(x_u,M_0(x_u))\}^q D^u={(xu,M0(xu))}q,其中M0(xu)表示xu的伪标签。接下来,我们将标记数据集 D l D_l Dl与伪标记数据集 D ^ u \hat{D}_u D^u结合起来,形成一个综合数据集 D = ( D l ∪ D u ~ ) D=(D_l\cup\tilde{D_u}) D=(DlDu~)。最后,我们使用完整数据集D训练一个新模型M。上述简单的过程可以迭代执行,以不断提高生成的伪标签的质量。

表1概述了几种常用的数据集,这些数据集在各种场景中都有应用。通常,使用5%、10%等比率选择那些完全注释的图像进行半监督学习。

image-20240522105703371

评价指标

•像素精度计算正确分类像素到像素总数的比例。虽然这个度量是简单和直观的,但当类别中存在不平衡时,它可能不能准确地反映模型的性能。

•Mean Accuracy考虑到每个类别的像素精度,并计算平均值以解决类别不平衡的问题。

•平均IoU计算所有类别的预测和实际情况之间的平均交集(mIoU):

其中N为类别数,Nii为类别i的P(真阳性)数,Nij为类别i和j的F(假阳性)数,Nji为类别j和i的F N(假阴性)数。

在某些类别需要给予更多重视的情况下,加权借据被用作对mIoU度量的修改。

3. 分类

借鉴先前研究[Pelaez-Vegas ’ et al, 2023]中对网络结构的伪标签方法分类,以及研究人员[Tarvainen and Valpola, 2017]对Mean Teacher结构的创新改进,我们的研究将集中在三个主要领域:基于模型的视角、伪标签的改进和优化措施。图2给出了各种伪标签技术的全面概述。

模型的视角。从本质上讲,生成伪标签的各种方法可以分为两类:单模型族和互模型族。图2 (a)说明了基于单一模型的方法,其中由单个模型生成的伪标签用于监督后续训练。例如,在MeanTeacher方法中,使用教师模型生成的伪标签来训练单个模型,其中包含一致性正则化。另一方面,基于多模型相互训练的方法旨在通过联合训练多个模型来提高模型性能。图2 (b)描述了这种方法,其中初始化了两个不同的网络,一个模型通过在未标记的数据上提供伪标签来监督另一个模型的训练。两种模型的交叉监督有助于定位和最小化伪标签中的错误。

伪标签的细化。我们将讨论对传统体系结构的增强,重点是改进伪标签以生成特定的标签。此外,我们将根据伪标签是否改变将这些改进伪标签的方法分为两组:标签更新和仅过滤。伪标签细化的简化架构如图2 (a)和(b)的蓝色区域所示。、

image-20240522111437056

图2:主要分类的摘要。我们的回顾分为三个主要类别:生成模型(子图a和b),伪标签的增强(蓝框)和优化的视角(暗红色箭头)。在伪标签生成的范畴内,我们研究了两种方法:单模型和多模型序列。此外,还采用了各种策略来选择或改进伪标签。最后,优化方法在这个领域也变得越来越流行。

优化。最后,我们还研究了一些新兴的优化技术,在图2 (a)中以暗红色表示。对这些方法的进一步阐述将在以下部分提供。

4. 半监督语义分割的伪标签

在本节中,我们总结了表2中提到的基于伪标签的半监督语义分割的所有方法。

image-20240522151205124

4.1 模型视角

架构在深度学习中的重要性不能被夸大,因为它建立了这些模型中使用的神经网络的框架和布局。该架构在决定网络如何操纵和分析输入特征方面起着至关重要的作用,从而影响模型学习和生成精确预测的能力。

选择合适的体系结构是构建成功的深度学习模型的重要方面。在本小节中,我们将研究有关单一模式家庭和协作互助模式家庭的论文

Single-Model-Based方法

单模型自我训练方法最早由Yarowsky [Yarowsky, 1995]提出。后来,[Lee等人,2013]建议将自我训练与使用伪标签的神经网络结合起来。由于最初的单模型自我训练方法很简单,后续的研究集中在增强该网络结构的不同方面。

自我训练迭代。GIST和RIST [Teh等人,2022],可以解释为贪婪算法策略(GIST)和后续迭代自我训练策略(RIST),在基础真理和伪标签之间交替。从自训练迭代的角度提出的另一种方法是st++ [Yang et al ., 2022],其关键步骤是在迭代过程中选择性再训练。由于在监督训练阶段,分割性能与生成的伪标签的进化稳定性呈正相关,因此可以在训练过程中通过进化选择更可靠的未标记图像。稳定性指标基于每个早期伪掩码和最终掩码之间的平均IOU:
s i = ∑ j = 1 K − 1 meanIOU ( M i j , M i K ) s_i=\sum_{j=1}^{K-1}\text{meanIOU}(M_{ij},M_{iK}) si=j=1K1meanIOU(Mij,MiK)
然后获得所有未标记图像的稳定性分数,并对整个未标记集进行排序,选择得分最高的R张图像进行第一阶段的再训练。st++基于可靠性的渐近变化预测鲁棒性,从而消除了手动选择逐像素滤波的置信阈值的需要。

选用性能监督。[Zhang等人,2022]提出了一种称为不确定性引导自交叉监督(USCS)的半监督语义分割方法。该方法利用多输入多输出(MIMO)分割模型的结果进行自交叉监督,从而显著降低了参数和计算成本

辅助任务框架。由于伪标签方法的另一个关键是建立辅助任务框架监督,因此从这个角度提出了一些方法。此前,[Li and Zheng, 2021]引入残差网络来扩展自训练结构。标记的数据被送入辅助残差网络,以预测原始分割结果的残差。虽然后来提出的ELN [Kwon and Kwak, 2022]主要是帮助定位错误,但辅助模块被训练来识别可能不正确的像素点。图像和分割结果作为输入。具体的ELN结构包括主分割网络(编码器和解码器)和辅助解码器(D1, D2,…)。DK)。主分割网络采用标准交叉熵损失训练,辅助解码器采用受限交叉熵损失训练:
L a u x = 1 ∣ D L ∣ ∑ X ∈ D L ∑ k = 1 K { L c e ( P k , Y ) > α k ⋅ L c e ( P , Y ) } ⋅ L c e ( P k , Y )

Laux=1|DL|XDLk=1K{Lce(Pk,Y)>αkLce(P,Y)}Lce(Pk,Y)
Laux=DL1XDLk=1K{Lce(Pk,Y)>αkLce(P,Y)}Lce(Pk,Y)
因此,辅助解码器的表现将比主解码器差得多,因为它包含各种错误,然后将其用作ELN的输入,以训练ELN定位标记错误,类似于手动创建一些错误数据进行训练。EPS++[Lee et al ., 2023]通过显著性检测模型生成的显著性图提供丰富的边界,并结合图像级标注信息进行联合训练,辅助模型从像素级反馈进行训练。

几种半监督学习方法依赖于伪监督,特别是产生伪标签的自训练方法。然而,在自我训练中,单个模型生成的伪标签往往是不可靠的。这是因为通常只使用单个模型的预测置信度来过滤掉低置信度的伪标签,这可能会留下高置信度的错误并浪费许多低置信度自信正确的标签。双模型互训练方法针对单模型自训练方法固有的问题,即单个模型无法检测和纠正其错误,可能导致偏差的积累,最终影响训练和分割效果,提出了两个或多个模型根据差异相互训练,对其错误进行局部化,并相互纠正的互训练[Zhang et al ., 2018]。

Cross-Pseudo-Supervision。

经典的交叉训练视角是双模型交叉监督,如CPS [Chen等人,2021]方法对两个网络使用不同的初始化方法,其中一个网络输出的伪标签监督另一个分割网络。随后提出的n-CPS [Filipiak等人,2021]是将CPS扩展到n个子网络的结果,实验表明,网络集成显着提高了性能。在交叉监督的基础上,[Fan et al ., 2022]引入了不确定性引导监督,提出了UCC (uncertainty-guided Cross-head Co-training of Cross-head),通过共享编码器进一步提高了泛化能力。[Wang et al ., 2023]设计了一个基于冲突的交叉尝试一致性(CCVC)来强制两个子网从不相关的视图中学习知识。他们提出了一种新的交叉视图一致性策略,以鼓励两个结构相似但不共享参数的子网从相同的输入图像中学习不同的特征。他们引入了特征差损失来实现这一点。对于未标记的数据,他们使两个子网使用彼此的伪标签进行模型学习。

动态Muti-training

除了同步训练的交叉监督外,其他研究人员还提出了基于双网络结构的动态相互训练,其中两个网络是异步训练的。DMT [Feng et al ., 2022]指出单个模型很难克服自身的误差。因此,他们使用两个具有不同初始化的模型,其中一个模型为另一个模型生成离线伪标签。为了有效地训练机器学习模型,识别标签错误非常重要。他们通过比较两种不同模型的预测并量化它们之间的差异来做到这一点,这样他们就可以在训练期间动态调整减重,以提高模型的准确性。动态损失率 ω u \omega_u ωu定义如下:
ω u = { p B γ 1 , y A = y B p B γ 2 , y A ≠ y B , c A ≥ c B 0 , y A ≠ y B , c A < c B \omega_u=

{pBγ1,yA=yBpBγ2,yAyB,cAcB0,yAyB,cA<cB
ωu= pBγ1,pBγ2,0,yA=yByA=yB,cAcByA=yB,cA<cB
针对伪标签技术中的噪声问题,DMT方法提出给样本分配不同的权重,而不是丢弃它们。该方法旨在保留低置信度数据,但它可能无法有效解决伪标签方法中高噪声率的问题。此外,神经网络的“灾难性遗忘问题”无法完全解决,因为这些网络的基本组成部分是由固定的结构和参数组成的。但是,可以通过各种缓解技术降低这个问题的严重性。DMT-PLE[Zhou et al, 2022]方法扩展了伪标签增强策略从之前的DMT方法,主要是为了上述目的。他们提到,当处理具有不同类型的多个像素的输入时,模型保留它所学到的知识是具有挑战性的。为 了防止模型对最后学习到的类别产生偏见,他们使用了一种称为伪标签增强(PLE)的策略。该技术利用前一阶段模型生成的伪标签来细化当前模型生成的伪标签。

4.2 伪标签微调模型

伪标签更新方法

伪标签方法有时会导致在训练过程中出现不正确的预测或包含不准确的伪标签,这会导致错误的积累,使学习到的伪标签无法指导后续的学习,最终影响分割模型的训练结果。为了解决这一问题,一些研究提出了更新伪标签的方法来缓解噪声问题,并取得了良好的效果。

伪标签修正

一开始,一些作品将该任务表述为像素级标签噪声的学习问题。Yi等[2021]引入了一种基于图的标签噪声检测和校正框架,该框架利用类激活图(CAMs)生成的像素级标签作为弱标注噪声标签,训练强标注分割模型从上述噪声标签中检测干净标签,然后使用干净标签监督图注意(GAT)网络对噪声标签进行校正。然后使用干净标签监督图注意网络对噪声标签进行校正。同样,为了解决有噪声的标签校正问题,[Wang等人,2022b]提出了一种基于图像特征之间可靠语义关联的类别独立关系网络来校正标签。他们通过增加特征之间的关系来获得相关估计。为了有效地校正噪声标签,弱相关性的预测被丢弃。

与上述方法的观点不同,一些改进方法从训练阶段开始。Ke等人[2022]提出了一种ThreeStageSelftraining方法,他们试图通过三个阶段的自我训练来提取未标记数据的初始伪标签信息,同时以多任务方式强制分割一致性,以生成更高质量的伪标签。除了上述传统补救措施外,[Wu et al ., 2023]考虑到同类样本具有高像素级对应性,提出了使用标记图像校正噪声伪标签的CISC-R方法。受st++的启发[Yang et al ., 2022],他们使用了一种基于ciscc的图像选择方法,该方法考虑了类间特征差异和在训练开始时纠正噪声伪标签的难度。首先,对于每个类别k,使用初始模型从标记图像集中提取该类的锚向量 a l k a_l^k alk:
a l k = 1 n l k ∑ i n l k v l k = 1 n l k ∑ i n l k F l k ⊙ m l k . a_l^k=\frac{1}{n_l^k}\sum_i^{n_l^k}v_l^k=\frac{1}{n_l^k}\sum_i^{n_l^k}F_l^k\odot m_l^k. alk=nlk1inlkvlk=nlk1inlkFlkmlk.
通过这个平均生成,生成一个kl来表示标记图像的分类锚点。具体来说,通过标记图像x的kl与高级特征之间的余弦相似度生成CISC映射m '。

训练中的偏差既来自网络本身,也来自对可能不正确的伪标签的不当训练,这些伪标签会在迭代过程中积累误差。[He et al ., 2021]提出了分布式对齐和随机抽样(Distributed Alignment and Random Sampling, DARS)方法,这是一种简单有效的方法,可以重新分配有偏差的伪标签,使伪标签与真实情况对齐,并提高噪声标签对训练的影响。将它们的分布与真实分布对齐可以改进半监督语义分割。

随后,为了最小化偏差,Chen等[2022]建议进行去偏见自我训练(DST)。该方法的关键在于两个参数无关的分类器头将伪标签的生成和利用过程解耦,只使用干净的标签进行训练,提高了伪标签的质量。

伪标签过滤方法

此外,一些研究人员提出通过过滤带有噪声的伪标签来增强分割效果,这些方法没有对带有噪声的标签进行更新。

置信度阈值。Zhou等[2021]提出了C3SemiSeg,它提出了一种动态置信区域选择策略,专注于高置信区域进行损失计算。此外,还结合了交叉集对比学习来提高特征表示。然而,为了解决现有的基于高置信度的伪标签方法丢失大部分信息的问题,Ju等[2023]提出了一种用于半监督语义分割的类自适应半监督框架(CAFS),该框架允许在标记的数据集上构建验证集,以利用每个类的校准性能。这包括一个核心操作:自适应逐类置信阈值(ACT),它不再强调使用校准分数来自适应地调整可靠性置信阈值。最近,TorchSemiSeg2[Chen et al ., 2023]引入了一个局部伪标签过滤模块,使用鉴别器网络来评估区域级伪标签的可靠性。

他们还提出了一种动态区域损失校正,以进一步评估使用网络多样性的伪标签的可靠性,并评估网络的收敛方向。

置信度提炼

由于前面提到的许多工作大多基于置信度阈值来评估伪标签数据,因此在训练开始时存在的置信度模糊问题可能在很大程度上限制了后续的更新。最近,Kong等人引入了PGCL[2023],其目的是解决网络剪枝中模糊置信度分数的问题,通过使用粗糙策略,从简单到困难的例子逐步训练网络。

辅助网络过滤

此外,有些方法利用辅助结构进行过滤操作。例如,GTA-Seg[Jin et al ., 2022]选择了一种辅助结构,称为温和的教学助理。GTA直接从教师网络生成的伪标签中学习,只将过滤后的有利信息传递给学生网络,以协助监督学生网络的训练。

4.3 优化方法

除了上述方法外,一些研究人员还提出了独特的优化技术来提高分割结果。这些技术包括损失函数改进、伪标签重新设计等。

损失函数。Wang等[2022c]建议通过感知交叉熵(CCE)和渐进式交叉训练(PCT)来提高伪标签的质量。CCE比传统的交叉熵更能简化伪标签的生成。PCT逐渐引入高质量的预测作为对网络训练的额外监督。PS-MT[Liu et al ., 2022]采用更严格的置信度加权交叉熵(Conf-CE)来解决交叉熵损失训练容易过拟合预测误差的问题

标记数据利用率。值得注意的是,[Tu等人,2022]认为分别处理标记和未标记的数据通常会导致丢弃大量从标记示例中学习到的先验知识。因此,他们提出了一种名为GuidedMix-Net的方法,该方法通过使用标记信息来指导未标记示例的学习,从而学习更高质量的伪标签。类似地,我们前面提到的CISCR[Wu et al ., 2023]通过估计未标记图像与查询的标记图像之间的像素相似性并生成CISC地图来校正伪标签的像素级校正。

伪标签利用率。邹等人[2020]专注于伪标签的结构化和定性设计方法,并提出了一种单阶段一致性训练框架PseudoSeg,它从两个分支生成伪标签:分割模型的输出和类激活图(CAM)的输出。他们提出了一种伪标签重新设计策略,该策略通过校准的融合策略将来自两个源的伪标签组合在一起,即给定一批解码器输出 p ^ = f θ ( ω ( x ) ) \hat{p}=f_{\theta}(\omega(x)) p^=fθ(ω(x))和基于弱增强数据w(x)计算的SGC映射,生成伪标签 y ~ \tilde{y} y~:
F ( p ^ , m ^ ) = S h a r p e n ( γ   S o f t m a x ( p ^ N o r m ( p ^ , m ^ ) ) + ( 1 − γ ) S o f t m a x ( m ^ N o r m ( p ^ , m ^ ) ) , T )

F(p^,m^)=Sharpen(γ Softmax(p^Norm(p^,m^))+(1γ)Softmax(m^Norm(p^,m^)),T)
F(p^,m^)=Sharpen(γ Softmax(Norm(p^,m^)p^)+(1γ)Softmax(Norm(p^,m^)m^),T)
PseudoSeg通过实现一种新的伪标签重新设计策略来生成校准良好的高质量伪标签,从而促进随后的模型训练。对于有限的可用标记数据,校准良好的伪标签可以大大提高分割。为了进一步改进校准,他们建议探索多模态数据融合等先进技术

[Fan等人,2023]从双模型相互训练的角度发展保守渐进式协作学习(CPCL),其中保守分支使用高质量伪标签进行交叉监督,以实现基于保守协议的进化。渐进分支由一个union监督,利用大量的标签来实现对分歧的渐进探索

5. 其他领域的伪标签方法

伪标签方法以其简单、有效的特点在语义分割中得到了广泛的应用。我们在前一节总结的方法主要集中在自然图像分割上,但毫无疑问,在更多的领域继续研究和推广图像分割是很重要的。在本节中,我们将重点介绍应用于某些特定领域的伪标签技术,包括医学图像和遥感图像分割。

5.1 医学图像分割

由于缺乏足够的标签,医学图像分割是医学图像分析中一项非常困难的任务,该任务涉及识别CT或MRI图像中与器官或病变相对应的像素。许多研究已经提出使用伪标签,当应用于特定的医疗数据集时,产生了有希望的结果。在他们最近的工作中,[Huo等人,2021]引入了一种称为异步师生优化(ATSO)的新方法来挑战传统的学习策略。他们提出将未标记的训练数据分成两个子集,而不是交替训练两个模型。这种方法特别适用于3D医学图像,其中每个3D身体被分成代表冠状、矢状和轴向视图的2D切片。然后使用2D网络进行分割,并将结果输出堆叠形成3D体。

半监督医学图像分割的一个常见问题是标记数据和未标记数据分布之间的差异。先前的研究主要是孤立地或不一致地处理标记和未标记的数据,这可能导致忽视从标记数据中获得的知识。在他们的研究中,[Bai等人,2023]提出了一种直接的方法来缓解这一问题,即使用称为BCP的Mean-Teacher模型在两个方向上合并标记和未标记的数据。

5.2 遥感图像分割

高分辨率遥感卫星图像的标记过程是一项需要大量时间和精力的任务。这个限制影响了分割模型的性能。为了解决这个问题,一些报告建议使用依赖于半监督学习的伪标签技术。这些方法旨在辅助遥感图像的分割。[Li et al ., 2023a]在论文中提出了一种提高有限样本高分辨率遥感图像分割精度的技术。他们通过使用两个网络(即UNet和DeepLabV3)来预测伪标签并有效地过滤它们来实现这一点。在他们最近的工作中,[Cui等人,2023]提出了一种利用双交换熵一致性和师生结构的新方法。由于存在多个类别,复杂的地形,类别之间的显著重叠以及模糊的特征,这项任务具有挑战性。为了解决这些挑战,作者将通道注意(CA)机制纳入教师编码网络。该CA模块有效地过滤了特征映射,抑制了噪声干扰,从而约束了特征提取,降低了编码网络产生的信息熵。

6. 挑战与未来展望

在进行彻底的检查后,很明显,伪标签技术已经冒险进入各种图像分割技术,产生显著的结果。尽管如此,本节将集中讨论伪标签方法在半监督语义分割中遇到的困难,并强调潜在的研究方向。

使用基础模型提高质量。基金会模型已经改变了人工智能,为知名的聊天机器人和生成式人工智能提供了动力。最近,一种名为Segment Anything model (SAM)的尖端交互式提示模型[Kirillov et al ., 2023]被集成到语义分割任务中。预计未来将利用SAM的提示功能,进一步提高伪标签的效率和有效性。

附加信息的利用。目前,低质量伪标签的使用仅限于单一类型的监督信号,而忽略了其他像素中存在的有价值的信息。因此,有机会将替代形式的监控信号集成到模型中,增强其有效利用粗标记和细标记数据的能力。我们预计未来的研究将通过采用更全面的监督方法来提高分割性能。

参与主动选择并完善过程。

伪标签技术难以有效地解决有噪声数据的问题。主动学习等策略不是在整个数据集上训练模型,而是选择最具信息量的数据点的子集来查询额外的标签。这种方法更有效,成本效益更高,因为它允许模型从最有信息的例子中学习,而不需要对整个数据集进行标记。当主动选择和改进策略结合在一起时,未来看起来很有希望。

探索复杂的分割场景。将伪标签模型的应用扩展到更广泛的现实世界情况是至关重要的。虽然在理论研究方面取得了显著进展,但目前伪标签方法的使用仅限于特定的数据集,如PASCAL VOC 2012[2015],其中仅包含20个常见的类别。为了推进这一领域,研究更好地代表现实生活场景的数据集是至关重要的。

例如,ADE20K [Zhou et al ., 2017]包含超过150类对象信息,可以作为未来探索的更具代表性的数据集。

7. 总结

我们是第一个对半监督语义分割领域的伪标签技术进行全面概述和分类的人。我们的分类是基于模型的观点,提炼伪标签的方法,和创新的优化方法。此外,我们已经检查了各种伪标签技术用于医学和遥感图像分割。最后,我们确定了这一领域当前的障碍,并提出了潜在的未来方向。我们也提出了解决这些挑战的研究途径。

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号