苹果上周展示最新视觉模型名为Depth Pro,能在不使用相机形象情况下,将2D图片转化成3D图。

Depth Pro是一种零样本单反深度估计(monocular depth estimation)的基础模型,能为高分辨率深度图加入细节锐利度,成为高品质3D图像。使用单反深度估计技术的好处是可以应用于任何类型图片,且可零样本训练出具有可测量的深度,因而能准确重现对象形状、场景布局,用当地图上,则可重现具有绝对尺度值的深度图(depth map),而且不需提供相机内部参数metadata(像是焦距)给模型。简而言之,这种AI模型预测方法不需要传感器数据即可准确预测,也可用任何单一图片来合成想要的图片。

在研究方法上,研究团队使用了2个视觉Transformer(vision transformer,ViT)模型,包括一个形象补片编码器(patch encoder)和一个形象编码器(image encoder),前者负责将图片切成小补片,完成特征提取、推论图片像素的深度,后者以上下文(context)消息提升深度估计的准确性。模型完成后的后处理方面,团队以真实和合成数据集来提升测量准确性以及对象边界跟踪(boundary tracing)能力,辅以另一个形象编码器模型提供的焦距估计,借此优化3D图片生成结果。

在边界准确度测试上,Depth Pro超过所有现有模型,像是Marigold和PatchFusion。该模型另一优点是速度快,在实测中可以在一台使用一颗Nvidia V100 GPU上0.3秒内生成2.25-megapixel的深度图。

图片来源/arXiv:2410.02073 “cs.CV”

连同论文,苹果并将Depth Pro模型程序代码和加权值等公布在GitHub上。