赞
踩
这篇文章是使用深度学习网络处理人体关节点定位的第一篇文章,发表于2014,August 20. 作者使用了级联的卷积神经网络来预测人体关节点。
人体姿态识别被定义为人体关键点的定位问题,一直以来是计算机视觉领域的重要关注点。这一问题有着一些常见的挑战,比如各式各样的关节姿态,小得难以看见的关节点,遮蔽的关节点,需要根据上下文判断的关节点,而这个领域主流的工作是各式样的关节姿态。
此前的姿态估计都是基于局部的为关节建模,这种方式对于表示能力是很有局限性的,因为它使用局部探测器,只能是为身体关节点之间所有关系的部分子集建立模型,很有局限性。于是作者提出了以整体的方式来预测人体关节点的方法,使用DNN强大的性能来处理人体关节点的预测。DNN有着强大的分类和定位能力,在此之前并没有人来使用DNN(Deep Neural Networks)对人体关节点的定位,作者Alexander Toshev和Christian Szegedy是第一个DNN应用于人体关节点检测的人。
作者将人体姿态估计定为关节点回归的问题,并且给出了如何将DNN用于人体关节点回归的方式,每一关节点的定位使用一整幅图像输入到7层CNN来做回归,这种做法又两个优点:
更进一步,作者使用级联的DNN-based 姿态检测器。这种级联的检测器能够增加关节点定位的精确度。首先在一整幅图像上进行粗略的姿态估计,然后使用多个DNN-based 回归器对关节点的邻域子图像(有更高的分辨率)优化预测结果.
人体的一个姿态可以用
检测框
N(yi,b)=(1/bw001/bh)(yi−bc)(1)
将每个关节点的图像用这个
作者是将姿态估计当作回归问题来解决的,作者使用
y∗=N−1(ψ(N(x);θ))(2)
由(2)知,应当也对训练集进行标准化处理
DN={f(N(x);N(y)|(x,y)∈D}(3)
所使用的损失函数是L2损失,那么模型可以写为:
argminθ∑(x,y)∈DN∑i=1k||y−ψ(x;θ)||2(4)
如下图所示模型的基本框架,强大的CNN避免了姿态去建立主要模型,而是从大量的数据中学习模型和特征。
模型结构如下:
作者使用使用CNN并不是用的分类损失,而是使用线性回归损失,预测的关节点和ground-true 的 L2-loss。由于训练数据量,模型参数很多,所以对图像做了简单的数据增强以扩大数据集。
初始阶段是可以粗略的得到关节点的大概位置,它是基于整幅图像进行上下文推理的,但是他的尺寸被固定到了220x220,而数据集里的图片都比较大,所以输入的时候会对图像进行下采样,想要使得网络看到更多细节就很难了,继而想要优化关节点的位置相对不够精确。但是又不能增加输入的尺寸,因为这样会增加大量的参数。
为了得到更好的精确率,作者训练一个级联的姿态回归器。在第一个阶段,先
粗略的估计出上个部分的姿态轮廓,然后在下个阶段,将关节点的位置不断的
优化关节点的位置。
每一步都使用已经预测的关键点来切出基于这个关键点的邻域,这个子图像将被用于接下来的网络输入,而接下来的网络就会看到更高分辨率的图像,最终达到更好的精确率。
为了优化姿态,作者定义了一个回归框
diam(y)
(摘自原文)The diameterdiam(y) of the pose is defined as the distance between opposing joints on the human torso, such as left shoulder and right hip, and depends on the concrete pose definition and dataset
姿态的预估diam(y)= 对立的关节点之间的距离,具体取决于数据集的和姿态定义
根据以上可以写出初始阶段或者第一个阶段的预测姿态,其中
stage1:y1←N−1(ψ(N(x;b0);θ1);b0)
后面的阶段就是使用的局部图像,即预测关节点邻域的图像,每个关节点都会做一次回归。
stage2:ysi←Ns−1(ψi(N(x;b);θs);b)forb=b(s−1)i(6)
bsi←(ysi,σdiam(y),σdiam(y))(7)
每个关键点
DsA={(N(x;b);N(yi;b))|(x;yi)∼D;δ∼N(s−1)b=(yi+δ;σdiam(y))}
那么在(4)模型的基础上进行修改,模型4表示为第一阶段的过程,(8)为后面的阶段的过程
θs=argminθ∑(x,yi)∈DSA||yi−ψi(x;θ)||2(8)
FLIC(Frames Labeled In Cinema):4000 训练图像 ;1000 测试图像; 10个上身关键点
LSP(Leeds Sports Dataset): 11000 训练 1000 测试; 14个全身关键点
Percentage of Correct Parts (PCP) –> Percent of DetectedJoints (PDJ)
如果两个关节点的位置和真实肢体关键的距离达到至多一半时的真实肢体长度,就认为已经关节点被预测到了 –>距离变成了躯干直径的百分比
DeepPose: Human Pose Estimation via Deep Neural Networks(精读)
https://blog.csdn.net/sheng_ai/article/details/38925561
LRN:局部相应归一化层
https://blog.csdn.net/sinat_21585785/article/details/75087768
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。