赞
踩
Time:2022
我们介绍了一种YOLO-Pose,一种新的无热图联合检测方法,以及基于流行的YOLO目标检测框架的图像二维多人姿态估计。现有的基于热图的两阶段方法是次优的,因为它们不是端到端可训练的,训练依赖于替代L1损失,不等于最大化评估度量,即目标对象关键点相似度(OKS)。我们的框架允许我们端到端训练模型,并优化OKS度量本身。该模型学习了在一次正向传递中联合检测多个人的边界框及其相应的二维姿态,从而引入了自上而下和自下而上两种方法的最佳效果。所提出的方法不需要对自底向上的方法进行后处理,以将检测到的关键点分组到一个骨架中,因为每个边界框都有一个相关的姿态,从而导致关键点的固有分组。与自上而下的方法不同,多个向前通道被取消,因为所有人的姿势都是局部化的。YOLO-pose在COCO验证(90.2%AP50)和测试开发方面取得了新的最先进的结果。
效果如下:
论文的主要贡献有:
论文:https://arxiv.org/ftp/arxiv/papers/2204/2204.06806.pdf
源码:https://github.com/TexasInstruments/edgeai-yolov5/tree/yolo-pose
关键点+检测框相结合:it associates all keypoints of a person with anchors.
{x,y,conf}.
.因此,与一个锚点关联的17个关键点总共有51个元素。因此,对于每个锚点,关键点头预测51个元素,盒子头预测6个元素。对于具有n个关键点的 anchor,总体预测向量定义为:对于每幅图像,一个预测框将包含每个人的2D姿态及pose的外接矩形,box 坐标转换为anchor,而 box 尺寸根据 anchor 的高度和宽度标准化。同样,关键点位置将w.r.t转换为anchor中心。然而,关键点并没有与anchor 的高度和宽度进行标准化。关键点和盒子都被预测到anchor的中心w.r.t。由于我们的增强独立于锚的宽度和高度,它可以很容易地扩展到无锚的目标检测方法,如YOLOX,FCOS。
大多数现代目标探测器优化了IoU损失的高级变体,如GIoU、DIoU或CIoU损失,而不是基于距离的box检测损失,因为这些损失是尺度不变的,并直接优化了评估度量本身。我们使用CIoU损失来进行边界盒监督。对于与位置(i,j)
和比例s
上的第k
锚点匹配的地面真实边界框,损失定义为:
In our case, there are three anchors at each location and prediction happens at four scales.
w.r.t
,我们可以优化评估度量本身,而不是一个代理损失函数。我们将借据损失的概念从盒子扩展到关键点。在出现关键点的情况下,对象关键点相似度(OKS)被视为IOU。OKS损失本质上是尺度不变的,比某些关键点更重要。(i,j)
和尺度s
上与anchor匹配,我们将预测相对于anchor中心的关键点。对每个关键点分别计算OKS,然后求和,给出最终的OKS损失或关键点IOU损失。dn
是指第n个关键点的预测位置与场景中的真实位置之间的欧氏距离;kn
指的是关键点的权重;s指目标对象的尺度;
δ
\delta
δ 指的是每个关键点的可视标志。(i,j)
上的损失是有效的。最后,对所有尺度、anchor和位置的总损失进行总结:所有的姿态估计的SOTA方法都依赖于测试时间增强(TTA)来提高性能。翻转试验和多尺度试验是两种常用的技术。翻转测试增加了2倍,而多尺度测试在三个尺度{0.5X,1X,2X}上运行推理,增加了复杂性。
YOLO-Pose方法的优点之一是对关键点在预测的边界框内没有约束。因此,如果关键点由于遮挡而位于边界框之外,那么它们仍然可以被正确识别。然而,在自上而下的方法中,如果人的检测不正确,姿态估计也会失败。在我们的方法中,遮挡和错误的盒子检测的这些挑战都在一定程度上得到了缓解,如图所示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。