论文笔记-深度估计(1)Depth Map Prediction from a Single Image using a Multi-Scale Deep Network_scale-invariant error

作者：一键难忘520 | 2024-08-13 10:59:37

踩

scale-invariant error

Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

作者认为以前估计深度的方法大概是基于几何代数、优化求解的方法来获得空间信息，但对于单张图片，仅仅基于几何信息是无法判断它的真实尺度的，因为没有先验信息的话，它的尺度是无法进行估计的。单张图深度估计，以人为例，需要综合考虑线条角度，透视关系，物体大小，图像位置以及环境效果等因素。因此融合其他信息的深度网络有望获得更好的单张图深度预测。

网络

为此作者提出一个有监督的包含两个网络的coarse to fine深度学习网络来进行深度估计：coarse网络估计整张图的全局预测，而另外一个网络来对局部信息进行refine：

这里写图片描述

第一个coarse-scale网络和VGG等分类网络是一致的，卷积层+全连接层，得到的输出作为网络而的输入。它最终的输出大小只有输入的1/4大小。RELU，Dropout,不能缺；在ImageNet上pretrain好的model，减少工作量。

第二个fine-scale网络用来做精细化调整，比如目标物体的轮廓。这个网络仅仅包含卷积层，这让人想起了同年后面出来的FCR文章(参看博文列表)。

该网络将原来的图片进行卷积操作得到原图的1/4大小，并和第一个网络的输出接在一起（可能就是直接作为向量接在一起）。

训练时先训练好第一个网络，再将输出作为第二层网络来训练第二层网络。也就是：整个后向传播过程只在各自网络进行。

由于没有用到现在大家通用的deconvolution，最终输入大小为为原图1/2的fine网络的输出大小为原图的1/4，这是本文网络的最终输出。

价值函数

与一般作者会用预测值与真实值的绝对误差（欧式距离）不同，作者提出一个类似余弦误差的概念——尺度不变误差（Scale-Invariant Error）：

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/974467