【深度学习】深度估计，Depth Anything Unleashing the Power of Large-Scale Unlabeled Data_deepthanything

作者：运维做开发 | 2024-08-12 02:47:01

踩

deepthanything

论文标题：Depth Anything Unleashing the Power of Large-Scale Unlabeled Data
论文地址：https://arxiv.org/pdf/2401.10891.pdf
项目主页：https://depth-anything.github.io/
演示地址：https://huggingface.co/spaces/LiheYoung/Depth-Anything

这项工作提出了“Depth Anything”，一种用于鲁棒单目深度估计的高度实用的解决方案。我们的目标是构建一个基础模型，能够在任何情况下处理任何图像。为此，我们通过设计一个数据引擎来收集和自动注释大规模未标记数据（约6200万），显著扩大了数据覆盖范围，从而能够降低泛化误差。我们研究了两种简单但有效的策略，使得数据规模扩大成为可能。首先，通过利用数据增强工具创建了一个更具挑战性的优化目标，迫使模型主动寻求额外的视觉知识并获取鲁棒的表示。其次，开发了一个辅助监督，以强制模型继承来自预训练编码器的丰富语义先验。我们广泛评估了其零样本能力，包括六个公共数据集和随机捕获的照片。它展示了令人印象深刻的泛化能力。通过对NYUv2和KITTI进行微调，设置了新的最佳水平。我们的更好的深度模型还导致了一个更好的深度条件ControlNet。我们的模型在这里发布。

该工作是在TikTok实习期间完成的。我们强调大规模、廉价和多样化的未标记图像数据的价值对于MDE（单目深度估计）而言。我们提出了在联合训练大规模标记和未标记图像时的一个关键实践。我们的模型展示了比MiDaS-BEiT L-512更强的零样本能力。此外，经过与度量深度的微调，它显著超过了ZoeDepth。
我们的工作使用了标记和未标记的图像来促进更好的单目深度估计(MDE)。具体来说，对于未标记的图像&

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/967295