
在人工智能领域,Meta公司最近推出了一个名为V-JEPA的系统,这是一种能够通过形象学习物理世界的AI模型。
V-JEPA(Video Joint Embedding Predictive Architecture)是Meta FAIR(Facebook AI Research)团队的研究成果,其设计理念模仿人类婴儿如何通过观察来理解物体的持久性和物理法则。研究显示,V-JEPA在面对与其已有知识相悖的资讯时,能够展现出类似于婴儿的惊讶反应,显示出其具备“物理直觉”能力。
V-JEPA的运行方式与传统的以像素级别做直接形象预测的模型有所不同。传统模型通常将形象中的每个像素视为同等重要,这导致它们在分析场景时可能会过度关注不相关的细节,例如树叶的运动,而忽略了交通信号灯的颜色或附近汽车的位置。相对而言,V-JEPA使用更高层次的抽象表示来建模内容,这使得它能够更有效地识别形象中的重要元素。
这个模型的训练过程包括对形象帧进行遮罩,然后利用神经网络来预测被遮罩区域的内容。V-JEPA架构包括两个编码器和一个预测器三大组件:编码器1处理被遮罩的帧,生成潜在表示,而编码器2则处理未遮罩的帧,最终预测器利用这些潜在表示来预测未遮罩帧的输出。
在一项名为IntPhys的测试中,V-JEPA的准确率接近98%,显示出其在理解物理属性方面的卓越能力。此成就对于自动化机器人来说至关重要,因为它们需要具备物理直觉以便规划动作和与环境互动。
V-JEPA的团队还量化了模型在预测与观察不符时所表现出的惊讶程度,反应与婴儿的直观反应相似。尽管V-JEPA在模拟人类学习和建模世界的方式上取得了进展,但仍有一些基本元素缺失,例如对不确定性的适当编码。
随着V-JEPA 2的推出,这个模型的参数数量约为12亿,并在包含62小时机器人数据的微调后,使用大量自然形象进行自我监督预训练。新版本的模型在机器人学中的应用显示出其潜力,未来可能会在简单的机器人操作任务中发挥重要作用。V-JEPA 2的突破在于其两阶段训练,使其能够在零样本情况下控制机器人完成抓取、放置等任务。
AI科学家杨立昆(Yann Le Cun)在2025年VivaTech会议中提及,V-JEPA技术是迈向“人工超级智能”(Advanced Machine Intelligence,AMI)的重要一步。
(首图来源:shutterstock)











