微软发布Magma多模态AI代理基础模型，单一模型就具UI与机器人操作能力

微软研究院发布Magma，这是一款针对多模态人工智能代理设计的基础模型。Magma具备视觉与语言理解能力，能够直接执行UI操作与机器人控制，突破了传统视觉语言模型仅限于静态理解的限制。微软强调，Magma单一模型即可处理数字与物理环境中的互动任务，且不需特定领域微调，就展现出优于现有专用模型的性能。

Magma的核心技术是Set-of-Mark（SoM），通过标记可操作对象，如UI按钮或机器手臂，让人工智能能够准确理解形象中的互动元素，进而做出适当动作，像是Magma能够在UI操作中识别可点击的按钮，并执行指令来完成复杂的操作流程。在机器人领域，SoM让人工智能能够判断环境中的物体位置与特性，控制机械手臂稳定执行物品抓取、移动等任务。

此外，Magma也运用Trace-of-Mark（ToM）技术，该技术重点在于学习时序动作，借由标记形象中的移动轨迹，让人工智能理解对象在时间轴上的变化。ToM让Magma能够预测未来动作，例如判断机器手臂在操作过程中的最佳移动路径，或分析视频中人物的行为模式，更精确地规划下一步动作。相比传统逐帧预测方法，ToM使用更少的Token，但能捕捉更长时间范围的变化，提升人工智能在动态场景中的决策能力，并降低环境噪声的影响。

在多项基准测试中，Magma表现优于现有模型。在UI操作领域，在Mind2Web和AITW测试中完成高准确率，证明其能够操作复杂的网页与移动设备UI。在机器人操控方面，Magma在WidowX和LIBERO测试超越现有的机器人视觉语言模型OpenVLA，成功执行软件操控与拾取放置任务，并在已知与未知场景下展现良好的泛化能力。

Magma的强项在于零样本与少样本学习能力，能够直接应用于未见过的环境，而不需要额外微调。测试显示，Magma在UI操作与机器人任务中，都能够在零样本场景下执行完整任务。除了UI操作与机器人应用，Magma在视觉问答、时序推理等任务上也表现出色。在空间推理测试中，其表现超越GPT-4o，微软提到，空间推理评估对于GPT-4o来说仍然是具有挑战性的问题，但Magma尽管预训练数据少得多，却能更好地回答这类问题。

微软发布Magma多模态AI代理基础模型，单一模型就具UI与机器人操作能力

微信扫一扫：分享