OpenAI提出推理新模型o3，o3-mini版本明年一月发布

为期12个工作天的“12 Days of OpenAI”最后一天，由首席执行官奥特曼（Sam Altman）和台裔研究资深副总裁陈信翰（Mark Chen）对外发布推理模型o1后继者“o3”系列，包括o3和o3-mini，是针对特定任务进行微调、较小的蒸馏模型。

o3和o3-mini尚未广泛推出，安全研究人员今日起可注册o3-mini预览版，至于o3预览版将在稍晚推出。OpenAI并未说明具体进程，奥特曼仅表示，计划明年一月底推o3-mini，日后再推o3。

Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI)December 20, 2024

奥特曼、陈信翰及其他团队成员发布o3。

OpenAI正在使用一种新技术来深思熟虑地调整，使o1、o3等模型及其安全原则保持一致。

o3这样的推理模型通过私有Chain of Thought在做出反应前会“思考”，能够自身进行事实核实，避免一些容易使模型出错的陷阱，缺点则是模型需要较长的时间才能做出回应。

值得一提的是，o3新功能在于调整推理时间的能力，模型可设置低、中、高计算（意即思考时间），计算量越高，o3执行任务的表现越好。

o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now.https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb)December 20, 2024

OpenAI总裁布洛克曼（Greg Brockman）和创建ARC-AGI基准的乔莱（Francois Chollet）谈o3模型。

除此之外，OpenAI表示与ARC-AGI背后组织合作创建下一代基准测试，并认为正慢慢接近通用人工智能（Artificial General Intelligence，AGI）。ARC-AGI是一项目的在评估AI系统是否能在训练数据之外有效获取新技能的测试，o3在高计算设置上获得87.5%分数，即便最坏的情况下（低计算设置上），o3的表现仍是o1的3倍。

最后，为何推理新模型称作“o3”而非“o2”呢？原因在于o2已是其他公司注册商标。根据外媒The Information报道，OpenAI跳过o2采用o3，避免与英国电信商O2衍生冲突，此事也获得奥特曼的证实。

（首图来源：shutterstock）