苹果AI研究团队提出一款新模型“Depth Pro”,能够显著提升机器感知深度的能力,从增强现实(Augmented Reality,AR)到自动驾驶汽车等不同领域有望带来深远的影响。
一篇《Depth Pro: Sharp Monocular Metric Depth in Less Than a Second》新论文,研究团队提出零样本单目场景深度预测的基础模型,称为Depth Pro,可合成具有无比锐利和高频细节的高分辨率深度图。
Depth Pro的深度预测采取公制,具有绝对比例,不依赖metadata。这款模型速度很快,在标准GPU只需0.3秒就能产生225万像素的深度图。
研究团队指出,Depth Pro真正与众不同之处在于它能够估计相对和绝对深度,意味着这款模型可以做到真实世界的测量,对AR等应用相当重要,使虚拟对象摆在实体空间的准确位置。
Depth Pro不需要对特定领域的数据集进行大量训练即可做出准确预测,这称为零样本学习。这使得该模型高度通用,可以应用在广泛的形象,而不需要相机参数等metadata。
研究团队将Depth Pro开源发布,程序代码以及预训练的模型权重可在GitHub取得,允许开发者和研究人员试验并进一步完善这项技术。他们也鼓励进一步探索Depth Pro在机器人、制造、医疗保健等领域的应用潜力。
单目深度预测一直是具有挑战性的任务,需要多项形象或焦距等metadata来估算测量深度,但Depth Pro绕过这些要求,不到1秒就能从单一2D图像产生详细的3D深度图,甚至可以捕捉传统方法可能忽略的微小细节,在单目场景深度预测上完成重大跃进。
(首图来源:shutterstock)