赞
踩
偶然看到微软亚研的单目图像深度估计发表在了CVPR2021上,决定更新一下这个系列。
官方已经有了十分详细的论文解读,我认为这篇文章比较有意思的观点在于认为:人的视觉系统更倾向于利用形状结构特征进行判断,而卷积神经网络则更依赖纹理特征进行判断。因此把图像中的结构信息和纹理信息解耦,利用结构信息进行深度预测。
CNN依赖于纹理应该是个不争的事实,最近人工智障把橘子形状的杯子识别成橘子,还有无法解读MEME的事情已经成了互联网上的梗,可见虽然CV热门了这么多年,还是存在一定缺陷,未来仍有很大改进空间。
个人认为深度神经网络与大脑的区别主要在于想象力,所谓“脑洞”和“脑补”,目前的神经网络还没有达到这种“无中生有”的水平,就算是一些生成型的网络,其实也是解空间足够大,使得给出的解看起来更加陌生、没有规律。但究其根本,还是根据一定的规则计算得到的结果。
另外,文章的所谓泛化主要是指将人工数据集训练得到的模型泛化至实际应用场景。因此实验也是基于人工生成的vKITTI数据集在KITTI和NYU_Depth数据集上进行的验证,感叹一下经典数据集效应,这么多年了,大家进行对比实验还是要用同样的数据集才能验证实验的有效性。
时间有限,我也只是粗略的看了一下这篇paper,如有不足之处,欢迎指正。
论文标题:S2R-DepthNet: Learning a Generalizable Depth-specific Structural Representation
地址:https://arxiv.org/pdf/2104.00877.pdf
代码:https://github.com/microsoft/S2R-DepthNet
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。