OpenAI本周发布一份重要研究论文,系统性分析大型语言模型出现“幻觉”现象的根本原因。研究指出,现有训练和评估程序更倾向奖励模型猜测,而非鼓励模型承认不确定性,这正是导致AI自信生成错误资讯的主要因素。

AI幻觉指模型自信地生成看似合理但实际错误的陈述,这一问题已成为阻碍用户完全信任AI系统的关键障碍。OpenAI在论文中明确定义幻觉为“模型自信地生成不真实答案的情况”,即使是GPT-5等最新模型,幻觉现象仍然存在。

研究团队以论文第一作者Adam Tauman Kalai为例进行测试,发现不同聊天机器人在询问其博士论文标题时,都自信给出错误答案,显示这一问题的普遍性。

OpenAI研究发现,当前评估方法设置错误激励机制是幻觉持续存在的部分原因。研究人员解释,大多数评估模型性能的方式会鼓励模型进行猜测,而非诚实面对不确定性。

这种情况类似多项选择题测试:如果不知道答案但随意猜测,仍有机会猜对;选择留空则必定得零分。因此,当模型仅根据准确度进行评分时,会被鼓励猜测而非承认“不知道”。

研究显示,在数千道测试题中,采用猜测策略的模型最终在记分牌上表现优于谨慎承认不确定的模型。OpenAI表示,弃权答案是谦逊指标的一部分,而谦逊正是该公司核心价值观之一。

虽然幻觉问题仍存在,OpenAI最新发布的GPT-5在减少幻觉方面取得重要进展。根据GPT-5系统卡数据,新模型的幻觉率比GPT-4o低26%,并在多项评估中表现卓越。

在LongFact-Concepts和LongFact-Objects测试中,GPT-5的幻觉率分别仅为0.7%和0.8%,远低于OpenAI o3的4.5%和5.1%。在医疗查询等高风险场景中,GPT-5的幻觉率仅为1.6%,显著低于其他模型。

OpenAI提出简单解决方案:对自信错误的惩罚力度应大于对不确定性的惩罚,同时对恰当表达不确定性的行为给予部分加分。研究团队强调,仅增加新的不确定性感知测试并不足够,需要更新广泛使用的评估方法。

论文指出,如果主要评估指标继续奖励模型幸运猜测,模型就会持续学习猜测行为。修改评估指标可以扩大降低幻觉技术的采用范围。

研究也深入分析幻觉在预训练过程中的产生机制。OpenAI表示,语言模型通过预测海量文本中下一个词进行学习,但与传统机器学习不同,每个语句没有“真/假”标签,模型只看到流畅语言的正面示例。

研究团队以图像识别模拟说明:如果用宠物生日标记照片,由于生日本质上随机,无论算法多先进都会产生错误。同样,拼写和括号遵循一致模式,这些错误会随规模扩大而消失;但像宠物生日这样任意的低频事实无法仅凭模式预测,因此导致幻觉。

与此同时,OpenAI正在重组其模型行为团队,该约14人的研究小组负责塑造AI模型与人类互动方式。根据内部备忘录,模型行为团队将并入后期训练团队,向后期训练主管Max Schwarzer汇报。

团队创始负责人Joanne Jang将启动名为OAI Labs的新项目,专注于发明和设计人们与AI协作的新界面原型。该团队此前致力于塑造模型性格特征、减少模型谄媚行为,并处理政治偏见等问题。

这项研究为理解AI幻觉问题提供重要理论基础,有助于推动整个行业改进模型评估标准。OpenAI表示,将继续努力进一步降低语言模型输出的置信错误率。

业界专家认为,随着评估方法的改进和新技术应用,AI幻觉问题有望得到更好控制,这将进一步提升用户对AI系统的信任度和实用性。

数据源:OpenAI