科技百花 2025-04-22 11:32:47

OpenAI o3模型基准分数惹争议　第三方测试与官方测试结果相差太大

OpenAI近来推出了不少新模型，不过最近o3模型在官方和第三方基准测试结果之间的差异，就引发了外界对OpenAI透明度和模型测试实践的争议。

OpenAI于去年十二月发布o3时，宣称该模型能够解答FrontierMath（一组困难的数学问题）中超过25%的问题。这一成绩远远超越竞争对手，排行第二的模型只能正确回答约2%的FrontierMath问题。OpenAI研究总监Mark Chen曾在直播中表示：“目前市场上所有产品在FrontierMath上的表现都低于2%，而我们在内部看到，采用激进测试计算设置的o3能达到超过25%的正确率。”

然而，FrontierMath的开发机构Epoch AI上周五公布的独利基准测试结果显示，o3的实际得分约为10%，远低于OpenAI宣称的最高分数。这一差距可能源于测试条件的不同，公开版本的o3模型比OpenAI内部测试的版本计算能力更弱，且针对聊天和产品使用进行了优化。

OpenAI技术人员Wenda Zhou上周在直播中承认，目前的o3模型“更注重现实世界用例和速度”，这可能导致基准测试结果出现“差异”。他表示：“我们进行了优化，使模型更具成本效益，总体上更有用。我们认为这是一个更好的模型⋯⋯当你寻求答案时，不必等待太久，这对这类模型来说是真正重要的。”

来源：TechCrunch

登录或者注册查看/发表评论

品牌推荐