在卡内基梅隆大学的研究团队近日揭示了一个名为LegoGPT的全新人工智能模型,这一创新技术能够根据文本提示生成实际稳定的乐高结构。这个系统不仅能设计出符合描述的乐高模型,还能确保这些模型在现实中可以逐块搭建,无论是手动还是通过机器人协助。
研究人员在其发表在arXiv的论文中指出,为了实现这一目标,他们构建了一个大型的物理稳定乐高设计数据集,并训练了一个自回归的大型语言模型来预测下一个要添加的乐高砖块。这个模型能够生成符合提示的乐高设计,例如“流线型的延长船”或“经典风格的汽车,带有突出的前格栅”。这些设计虽然简单,仅使用少数几种砖块来创建原始形状,但却能够稳定地站立。
研究团队的领导者艾娃·潘(Ava Pun)表示,许多现有的3D生成模型专注于创建多样化的物体和详细的几何形状,但这些数字设计往往无法在现实中实现。LegoGPT的创新之处在于它能生成逐步的搭建指导,确保乐高创作不会倒塌。
(图片来源:avalovelace1.github.io)
为了构建LegoGPT,研究团队重新利用了大型语言模型的技术,将其应用于“下一砖预测”而非“下一词预测”。他们使用了Meta的LLaMA-3.2-1B-Instruct模型,并增强了这一模型,使其能够通过数学模型来验证物理稳定性,模拟重力和结构力。
在训练过程中,团队组建了一个名为“StableText2Lego”的新数据集,该数据集包含超过47,000个稳定的乐高结构,并配有由OpenAI的GPT-4o生成的描述性标题。每个结构都经过物理分析,以确保其在现实中可搭建。
LegoGPT的工作原理是首先生成一系列精确放置的乐高砖。对于每个新砖,系统会确保其不会与现有砖发生碰撞,并且适合建筑空间。在完成设计后,系统会使用数学模型来验证该模型是否能够稳定地站立。如果某些部分在现实中会倒塌,系统会识别出第一个不稳定的砖,并回溯,移除该砖及其后续的所有砖,然后尝试不同的方法。这一“物理感知回滚”方法对于团队的研究至关重要,因为在使用完整系统的情况下,98.8%的设计能够保持稳定,而仅使用部分功能时,只有24%的设计能够站立。
(图片来源:avalovelace1.github.io)
此外,研究人员还扩展了系统的功能,增加了纹理和颜色选项。例如,使用“金属紫色的电吉他”这一外观提示,LegoGPT可以生成一个吉他模型,并将砖块指定为紫色。为了证明其设计在现实中可行,研究人员使用机器人组装了AI创建的乐高模型,并且人类测试者也手动搭建了一些设计,显示出AI确实能创建可搭建的模型。研究团队的实验表明,LegoGPT能够生成稳定、多样且美观的乐高设计,与输入的文本提示高度一致。(首图图片来源:(图片来源:avalovelace1.github.io)