Artificial Analysis发布幻觉基准测试AA-Omniscience，只有3个模型的准确率高于幻觉率

英国AI研究与评测公司Artificial Analysis于周一（11/17）发布全新的幻觉基准测试AA-Omniscience，用以衡量模型在知识覆盖度与诚实自我校准（避免乱猜）之间的平衡。该测试除了计算模型的准确率外，若出现幻觉则会扣分，因此只有Claude 4.1 Opus、GPT-5.1与Grok 4等3款模型的得分高于0，其余皆为负分，显示多数模型在高难度题目中给出错误答案的机率，仍高于正确答案。

Artificial Analysis指出，语言模型的内置知识对许多实际应用至关重要，若缺乏知识，模型容易作出错误假设，无法于真实场景中运用，尽管可借由网页搜索补强，但至少必须知道该搜索什么；看似事实的幻觉是信任模型的主要障碍，且在多数测试数据集中被持续放大，若仅以准确率评分、对错误不进行惩罚，模型反而会被诱导乱猜，特别是在知识领域，错误知识比不回答更有害。

AA-Omniscience会对出现幻觉的行为进行扣分。该测试共收录6,000个专家级的高难度问题，涵盖6大领域（商业、人文社会、健康、法律、软件工程、理科与数学），共42个主题、89个子领域；错误答案会在“知识可靠度指数”中被惩罚；其3大指标分别是准确率、幻觉率与Omniscience Index（全知指数），在全知指数中，答对会+1，答错会-1，不答则是0分，总计测试36个模型。

结果发现，Claude 4.1 Opus全知指数第一，其次为GPT-5.1与Grok 4，但这些顶级模型的得分也仅略高于0，其中，Anthropic的优势来自低幻觉率，OpenAI与xAI则以高准确率取胜。

Grok 4在准确率上居冠，其次为GPT-5与Gemini 2.5 Pro，猜测xAI的优势可能来自庞大参数量与前训练算力；而Claude系列横扫幻觉榜，4.5 Haiku的幻觉率28%，远低于GPT-5（高达80%）与Gemini 2.5 Pro（70%）；Claude 4.1 Sonnet与Claude 4.1 Opus的幻觉率皆为48%。

该测试透露出，高知识不等于低幻觉，且每个模型在不同领域的表现也不一，大型模型的准确率虽高，但不见得可靠，整体而言，Anthropic Claude系列在幻觉控制最稳定，OpenAI GPT-5.1在商业领域最准确，xAI Grok 4在数理与健康领域最强大。

至于在AA-Omniscience敬陪末座的，则是LG AI Research的EXAONE 4.0 32B，最后3名还包括OpenAI开源系列的gpt-oss-20B与gpt-oss-120B，这3个模型的全知指数约在-70至-80之间，显示它们“答错的次数远高于答对”，属于高幻觉、低可靠模型。