生成式AI又有新突破!美国卡内基梅隆大学(Carnegie Mellon University)研究团队日前发布了一项名为LegoGPT的新系统,让AI不只是“画得出来”,更能“拼得出来”。这套模型可根据文本提示生成外观与主题相符、同时符合物理稳定性的乐高模型,确保这些设计在现实世界中真的可以叠得起来、不会倒。
过去不少AI能够产生3D模型,但多数只追求外观,忽略现实结构所需的支撑与连接。CMU团队则导入一套称为“物理回溯(physics-aware rollback)”的机制:当生成的模型经模拟后发现某块积木无法站稳,就会自动回溯并改用不同配置,直到整体达到可组装的稳定状态。
在论文中,研究人员指出,如果没有这项机制,AI所生成的模型只有约24%能成功站立;而加上物理验证后,成功率高达98.8%。
LegoGPT的运行方式,基本上是将大型语言模型(LLM)应用在“积木排列”上。研究团队以Meta的LLaMA-3.2-1B-Instruct模型为基础进行训练,结合一套名为StableText2Lego的全新数据集,其中收录了超过47,000组经过稳定性验证的乐高设计,每组搭配由GPT-4o所产生的描述文本。
当用户输入像是“一艘流线型飞船”或“带有大型水箱护罩的复古车款”等提示,系统会逐步预测并放置下一块积木,并依次构建完成品,确保所有积木都有物理支撑,且不与他处碰撞。
为了验证LegoGPT的设计真的能实体拼出来,研究人员让双手臂机器人依照AI所产生的指令实际组装,并通过力传感器进行调整。人类测试者也手动依说明书拼出模型,结果证实这些设计“真的能拼、真的稳”。
此外,LegoGPT还支持简易的外观控制,像是使用“金属紫色电吉他”这类提示,AI就能输出对应形状与颜色的模型。
目前LegoGPT只支持20×20×20格的积木空间,且仅使用8种标准积木类型(不含斜面或装饰件)。团队表示未来将扩展积木库,加入更多尺寸与变化结构,并增加训练数据中可生成的对象类别。
值得一提的是,研究团队已将模型、数据集与源码开放置GitHub,有兴趣的开发者与教育者可进一步应用,甚至实际拼砌,为乐高创作与AI应用开拓更多可能性。