为期12个工作天的“12 Days of OpenAI”最后一天,由首席执行官奥特曼(Sam Altman)和台裔研究资深副总裁陈信翰(Mark Chen)对外发布推理模型o1后继者“o3”系列,包括o3和o3-mini,是针对特定任务进行微调、较小的蒸馏模型。
o3和o3-mini尚未广泛推出,安全研究人员今日起可注册o3-mini预览版,至于o3预览版将在稍晚推出。OpenAI并未说明具体进程,奥特曼仅表示,计划明年一月底推o3-mini,日后再推o3。
Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3pic.twitter.com/e4dQWdLbAD
— OpenAI (@OpenAI)December 20, 2024
奥特曼、陈信翰及其他团队成员发布o3。
OpenAI正在使用一种新技术来深思熟虑地调整,使o1、o3等模型及其安全原则保持一致。
o3这样的推理模型通过私有Chain of Thought在做出反应前会“思考”,能够自身进行事实核实,避免一些容易使模型出错的陷阱,缺点则是模型需要较长的时间才能做出回应。
值得一提的是,o3新功能在于调整推理时间的能力,模型可设置低、中、高计算(意即思考时间),计算量越高,o3执行任务的表现越好。
o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now.https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb)December 20, 2024
OpenAI总裁布洛克曼(Greg Brockman)和创建ARC-AGI基准的乔莱(Francois Chollet)谈o3模型。
除此之外,OpenAI表示与ARC-AGI背后组织合作创建下一代基准测试,并认为正慢慢接近通用人工智能(Artificial General Intelligence,AGI)。ARC-AGI是一项目的在评估AI系统是否能在训练数据之外有效获取新技能的测试,o3在高计算设置上获得87.5%分数,即便最坏的情况下(低计算设置上),o3的表现仍是o1的3倍。
最后,为何推理新模型称作“o3”而非“o2”呢?原因在于o2已是其他公司注册商标。根据外媒The Information报道,OpenAI跳过o2采用o3,避免与英国电信商O2衍生冲突,此事也获得奥特曼的证实。
(首图来源:shutterstock)