在最新的研究中,麻省理工学院、哈佛大学和芝加哥大学的学者提出了“波将金理解”(potemkin understanding)这一术语,来描述大型语言模型在概念基准测试中表现优异、但却缺乏真正理解能力的现象。这一术语源自于俄罗斯军事领导人格里戈里·波坦金为了取悦凯瑟琳二世而建造的虚假村庄的故事。

研究人员指出,这种“波将金理解”与“幻觉”不同,后者通常用来描述AI模型的错误或误判。事实上,AI模型的无能不仅体现在事实错误上;它们缺乏像人类一样理解概念的能力,这一点在对大型语言模型的贬义称呼“随机鹦鹉”中得到了体现。

在即将于2025年国际机器学习会议(ICML)上发布的论文中,作者们解释,“波将金理解”是指模型在基准测试中成功,但却无法理解相关概念的情况。哈佛大学的博士后研究员基昂·瓦法表示,选择这一术语是为了避免将AI模型拟人化。

例如,当被要求解释ABAB韵律时,OpenAI的GPT-4o能够准确回答,但在要求其创作一首符合该韵律的四行诗时,却给出了不合适的韵脚。这表明,模型能够正确预测解释的词汇,但却缺乏实际应用的理解能力。

研究人员认为,波坦金现象使得基准测试的有效性受到质疑,因为这些测试的目的是评估AI模型的广泛能力。如果模型能在没有真正理解的情况下获得正确答案,那么基准测试的成功就变得具有误导性。

为了评估波坦金现象的普遍性,研究人员开发了自己的基准测试,结果显示在测试的模型中,波坦金现象是“无处不在”的。这些测试涵盖了文学技巧、博弈论和心理偏见等领域,发现虽然模型能够识别概念,但在分类概念实例、生成示例和编辑概念实例时的失败率却高达55%至40%。

瓦法指出,波坦金现象的存在意味着人类所表现出的理解行为在LLMs中并不等同于理解,这要求我们需要新的方法来测试LLMs,或者找到消除这种行为的方法。这将是迈向人工通用智能(AGI)的一步,但可能还需要一段时间。

(首图来源:shutterstock)