美国大学发布LegoGPT，文本生成积木让AI生成的乐高作品在现实中也能站得稳、拼得出

生成式AI又有新突破！美国卡内基梅隆大学（Carnegie Mellon University）研究团队日前发布了一项名为LegoGPT的新系统，让AI不只是“画得出来”，更能“拼得出来”。这套模型可根据文本提示生成外观与主题相符、同时符合物理稳定性的乐高模型，确保这些设计在现实世界中真的可以叠得起来、不会倒。

过去不少AI能够产生3D模型，但多数只追求外观，忽略现实结构所需的支撑与连接。CMU团队则导入一套称为“物理回溯（physics-aware rollback）”的机制：当生成的模型经模拟后发现某块积木无法站稳，就会自动回溯并改用不同配置，直到整体达到可组装的稳定状态。

在论文中，研究人员指出，如果没有这项机制，AI所生成的模型只有约24%能成功站立；而加上物理验证后，成功率高达98.8%。

LegoGPT的运行方式，基本上是将大型语言模型（LLM）应用在“积木排列”上。研究团队以Meta的LLaMA-3.2-1B-Instruct模型为基础进行训练，结合一套名为StableText2Lego的全新数据集，其中收录了超过47,000组经过稳定性验证的乐高设计，每组搭配由GPT-4o所产生的描述文本。

当用户输入像是“一艘流线型飞船”或“带有大型水箱护罩的复古车款”等提示，系统会逐步预测并放置下一块积木，并依次构建完成品，确保所有积木都有物理支撑，且不与他处碰撞。

为了验证LegoGPT的设计真的能实体拼出来，研究人员让双手臂机器人依照AI所产生的指令实际组装，并通过力传感器进行调整。人类测试者也手动依说明书拼出模型，结果证实这些设计“真的能拼、真的稳”。

此外，LegoGPT还支持简易的外观控制，像是使用“金属紫色电吉他”这类提示，AI就能输出对应形状与颜色的模型。

目前LegoGPT只支持20×20×20格的积木空间，且仅使用8种标准积木类型（不含斜面或装饰件）。团队表示未来将扩展积木库，加入更多尺寸与变化结构，并增加训练数据中可生成的对象类别。

值得一提的是，研究团队已将模型、数据集与源码开放置GitHub，有兴趣的开发者与教育者可进一步应用，甚至实际拼砌，为乐高创作与AI应用开拓更多可能性。