英国AI研究与评测公司Artificial Analysis于周一(11/17)发布全新的幻觉基准测试AA-Omniscience,用以衡量模型在知识覆盖度与诚实自我校准(避免乱猜)之间的平衡。该测试除了计算模型的准确率外,若出现幻觉则会扣分,因此只有Claude 4.1 Opus、GPT-5.1与Grok 4等3款模型的得分高于0,其余皆为负分,显示多数模型在高难度题目中给出错误答案的机率,仍高于正确答案。

Artificial Analysis指出,语言模型的内置知识对许多实际应用至关重要,若缺乏知识,模型容易作出错误假设,无法于真实场景中运用,尽管可借由网页搜索补强,但至少必须知道该搜索什么;看似事实的幻觉是信任模型的主要障碍,且在多数测试数据集中被持续放大,若仅以准确率评分、对错误不进行惩罚,模型反而会被诱导乱猜,特别是在知识领域,错误知识比不回答更有害。

AA-Omniscience会对出现幻觉的行为进行扣分。该测试共收录6,000个专家级的高难度问题,涵盖6大领域(商业、人文社会、健康、法律、软件工程、理科与数学),共42个主题、89个子领域;错误答案会在“知识可靠度指数”中被惩罚;其3大指标分别是准确率、幻觉率与Omniscience Index(全知指数),在全知指数中,答对会+1,答错会-1,不答则是0分,总计测试36个模型。

结果发现,Claude 4.1 Opus全知指数第一,其次为GPT-5.1与Grok 4,但这些顶级模型的得分也仅略高于0,其中,Anthropic的优势来自低幻觉率,OpenAI与xAI则以高准确率取胜。

Grok 4在准确率上居冠,其次为GPT-5与Gemini 2.5 Pro,猜测xAI的优势可能来自庞大参数量与前训练算力;而Claude系列横扫幻觉榜,4.5 Haiku的幻觉率28%,远低于GPT-5(高达80%)与Gemini 2.5 Pro(70%);Claude 4.1 Sonnet与Claude 4.1 Opus的幻觉率皆为48%。

该测试透露出,高知识不等于低幻觉,且每个模型在不同领域的表现也不一,大型模型的准确率虽高,但不见得可靠,整体而言,Anthropic Claude系列在幻觉控制最稳定,OpenAI GPT-5.1在商业领域最准确,xAI Grok 4在数理与健康领域最强大。

至于在AA-Omniscience敬陪末座的,则是LG AI Research的EXAONE 4.0 32B,最后3名还包括OpenAI开源系列的gpt-oss-20B与gpt-oss-120B,这3个模型的全知指数约在-70至-80之间,显示它们“答错的次数远高于答对”,属于高幻觉、低可靠模型。