OpenAI近来推出了不少新模型,不过最近o3模型在官方和第三方基准测试结果之间的差异,就引发了外界对OpenAI透明度和模型测试实践的争议。

OpenAI于去年十二月发布o3时,宣称该模型能够解答FrontierMath(一组困难的数学问题)中超过25%的问题。这一成绩远远超越竞争对手,排行第二的模型只能正确回答约2%的FrontierMath问题。OpenAI研究总监Mark Chen曾在直播中表示:“目前市场上所有产品在FrontierMath上的表现都低于2%,而我们在内部看到,采用激进测试计算设置的o3能达到超过25%的正确率。”

然而,FrontierMath的开发机构Epoch AI上周五公布的独利基准测试结果显示,o3的实际得分约为10%,远低于OpenAI宣称的最高分数。这一差距可能源于测试条件的不同,公开版本的o3模型比OpenAI内部测试的版本计算能力更弱,且针对聊天和产品使用进行了优化。

OpenAI技术人员Wenda Zhou上周在直播中承认,目前的o3模型“更注重现实世界用例和速度”,这可能导致基准测试结果出现“差异”。他表示:“我们进行了优化,使模型更具成本效益,总体上更有用。我们认为这是一个更好的模型⋯⋯当你寻求答案时,不必等待太久,这对这类模型来说是真正重要的。”

来源:TechCrunch