2D图像快速转换3D深度图，苹果开源深度感知“Depth Pro”模型

苹果AI研究团队提出一款新模型“Depth Pro”，能够显著提升机器感知深度的能力，从增强现实（Augmented Reality，AR）到自动驾驶汽车等不同领域有望带来深远的影响。

一篇《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》新论文，研究团队提出零样本单目场景深度预测的基础模型，称为Depth Pro，可合成具有无比锐利和高频细节的高分辨率深度图。

Depth Pro的深度预测采取公制，具有绝对比例，不依赖metadata。这款模型速度很快，在标准GPU只需0.3秒就能产生225万像素的深度图。

研究团队指出，Depth Pro真正与众不同之处在于它能够估计相对和绝对深度，意味着这款模型可以做到真实世界的测量，对AR等应用相当重要，使虚拟对象摆在实体空间的准确位置。

Depth Pro不需要对特定领域的数据集进行大量训练即可做出准确预测，这称为零样本学习。这使得该模型高度通用，可以应用在广泛的形象，而不需要相机参数等metadata。

研究团队将Depth Pro开源发布，程序代码以及预训练的模型权重可在GitHub取得，允许开发者和研究人员试验并进一步完善这项技术。他们也鼓励进一步探索Depth Pro在机器人、制造、医疗保健等领域的应用潜力。

单目深度预测一直是具有挑战性的任务，需要多项形象或焦距等metadata来估算测量深度，但Depth Pro绕过这些要求，不到1秒就能从单一2D图像产生详细的3D深度图，甚至可以捕捉传统方法可能忽略的微小细节，在单目场景深度预测上完成重大跃进。

（首图来源：shutterstock）