赞
踩
实例分割和语义分割都是计算机视觉领域中图像分割的任务,它们在目标和方法上有一些区别:
语义分割:
实例分割:
两种分割方法的评估指标也有所不同。语义分割常用的评估指标是mIoU(mean Intersection-Over-Union),而实例分割除了使用mIoU评估分割质量外,还需要评估检测的准确性。与目标检测不同,实例分割不仅识别对象的存在,还为每个检测到的对象生成一个像素级别的掩码,这允许更精细的分析和编辑。
实例分割的应用非常广泛,包括但不限于:
实例分割的算法通常包括以下几个步骤:
分割任务:
实例分割:
从上面这个例子可以看出,检测任务定位了对象的包围框,语义分割分割出了人这个类别,不过把所有的人一起分割了,实例分割区分出了每个人,并分别进行了分割。实际在做实例分割时,通常同时输出对象的检测框,并给出对象的分割结果。
Mask R-CNN是由何凯明等人在2017年提出,用于同时进行目标检测、实例分割和关键点检测。这项工作在计算机视觉领域具有里程碑意义,因为它提供了一个统一的框架来处理这些任务,而不是将它们视为独立的挑战。
Mask R-CNN的核心思想是在已有的Faster R-CNN目标检测框架上增加一个并行的分支来预测对象的掩码,从而实现像素级别的对象分割。这个掩码分支是一个小型的全卷积网络(FCN),它应用于每个感兴趣区域(Region of Interest, RoI),以逐像素的方式预测对象的掩码。
为了解决RoI Pooling中的量化问题,Mask R-CNN引入了RoIAlign层,它通过双线性插值精确地计算输入特征在RoI上的值,而不进行量化,从而更好地保持空间对齐,这对于生成高质量的分割掩码至关重要。
Mask R-CNN的网络架构包括用于特征提取的卷积骨干网络和用于边界框识别和掩码预测的网络头部。它可以与多种架构一起实例化,如ResNet和ResNeXt,以及特征金字塔网络(FPN),后者可以构建一个内部特征金字塔,从而提高检测的准确性和速度。
在训练和推理方面,Mask R-CNN展示了快速的原型制作能力,可以在合理的时间内完成训练,同时保持高准确率。此外,Mask R-CNN还能够扩展到人体姿态估计等其他任务,展示了其灵活性和泛化能力。
Mask R-CNN的代码已经在GitHub上开源,由Facebook AI Research (FAIR) 提供,名为Detectron2,这使得研究人员和开发者可以利用和进一步研究这一算法。
相关论文和代码链接如下:
这里只讨论RoI Pooling
后的Head
部分,
Mask R-CNN
同时支持输出检测框,实例分割结果,关键点,这里我们只讨论Mask Head
部分,即上图中的右侧绿色分支。
值得注意的是,上图是粗略表示,关于proposal
在Head
中的使用和Mask/Box/KeyPoint Head
之间的关系可以参考下面两个图。
在训练时,Mask/KeyPoint Head
都使用proposal
框来当作检测box
框选对象,如下图蓝色线流所示:
在预测时,Mask/KeyPoint Head
不再使用proposals
转而使用Box Head
预测的检测框来框选对象,因此Mask/KeyPoint Head
依赖检测框的输出,如下图紫色线流所示意,
Mask R-CNN
的Mask Head
分析如下,整理自detectron2
代码库:
Mask Head
的输入有两个,一个是bounding boxes
或者proposals
(测试推理时使用boxes
,训练时使用RPN给出的proposals
),另一个是backbone
提取的feature map
。
Mask Head
的结构如上图,先是对feature map
根据bounding boxes
做ROI Pooling
,得到每个ROI
的特征图,然后是连续几层常规卷积,最后再跟一层转置卷积进行X2上采样,同时卷积输出通道变成num_class
,得到的输出shape=(B*N,num_class, 28, 28)
,这里28x28
就是ROI
区域对应的mask
,这里对每个对象预测了num_class
个mask
,在Mask R-CNN
中,直接使用Box Head
预测的label id
来取对应的mask
并sigmoid
以作为最终当前实例的分割结果。
转置卷积的介绍参考这里转置卷积 (opens new window)。
得到28X28
的实例ROI分割结果后,要将其变换到原图像上,这里使用了grid_sample
方法,使用grid_sample
变换,会根据box
坐标将ROI Mask
变换到原图像box
所处的区域。变换后再根据超参数阈值对mask
做二值化即可得到最后的分割结果。
YOLOV5/8中使用的Instance
分割方法和Mask RCNN
中区别比较大,
其利用Head1
中尺寸最大的特征图作为Mask
分支的输入,经过proto_pred
卷积层的处理得到shape:(B, mask_channel, H, W)
的mask_feature
。
检测框的预测分支和目标检测中的YoloV5 Head
基本相同,除了对于feature_map
的通道上增加了计算每个实例掩码用的参数,参数的数量同proto_pred
输出的mask_channel
,所以对于80X80/40X40/20X20
的feature_map
,其通道数为: 4 + 1 + num_classes + mask_channel
拿到解码后的检测框,经过nms
处理后得到最后的检测框,取对应的mask_channel
个coeffs
和mask_feature
相乘加权即可得到最后的实例分割结果,完整过程如下图:
RTMDet
中和YOLOV5
处理方式很相似,都是对每个检测框实例计算坐标时同时给出预测mask
所需的权重参数,区别在与YOLOV5/8
中直接用参数和mask_feature
进行加权求和,而RTMDET
预测了169
个参数,构造了3
层卷积,来和mask_feature
运算得到分割mask
。
还有一点RTMDet
中mask_feature
并非只使用了80X80
的feature map
,它还将其余两个头上的特征图上采样后与其进行concatenate
,输入mask_feature
分支后得到Batch_SizeX8X80X80
的mask
特征图。特征图并不能直接用来和predicted kernel
卷积得到Instance Mask
,RTMDet
算法使用的mask feat
先重复了检测实例的个数次,然后合并了检测框在特征图上的坐标,最后与predicted kernel
做卷积的输入mask
特征图变成了(N,10,80,80)
。
RTMDet
实例分割推理的完整过程可参考下图,
RTMDet
根据predicted_kernel
升成卷积的方法被称为动态卷积Dynamic Convolution
,如下图,
如上,就是Mask R-CNN/YOLOV8/RTMDet
三种实例分割的方法,总结来看,YOLOV8/RTMDet
方法相似,RTMDet
处理mask
预测的方法更复杂一些,YOLOV8
中的加权求和变成了三层卷积,输入的特征图重复了num_instance
次,并合并了mask_feature
上对应的priors
和num_instance
对应点的相对坐标。YOLOV8/RTMDet
输出Instance Mask
的分辨率比Mask RCNN
要大,Mask RCNN
经过转置卷积上采样后输出的RoI
分割图的大小是28X28
,经过GridSample
后还原到原分辨率上。不过Mask R-CNN
输出的是RoI
的分割图,而YOLOV8/RTMDet
输出的是在整幅图像上的分割图。
DeepLab系列是一系列用于图像分割任务的深度学习模型,它们在处理像素级语义理解方面表现出色。DeepLabv2是DeepLab系列中的一个里程碑,它引入了Atrous Spatial Pyramid Pooling(ASPP)模块,该模块通过多尺度卷积核捕获不同尺度的特征,从而提高分割精度。
改进的ASPP中,模型使用了三个不同尺度的3×3卷积核,这些卷积核具有不同的多孔速率(6, 12, 18),以及一个1×1卷积核,它们都具有256个滤波器和批量归一化层。这样的设计允许模型在不同的尺度上捕获和融合特征,从而提高分割性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。