OpenAI新发布的o3系列模型表明AI正以新的方式扩展,成本随之增加。
Moore's law(摩尔定律)是指集成电路上可容纳的晶体管数量大约每隔18个月便会增加一倍,性能也提升一倍,但价格相同,于是半导体制程技术不断提升,成本有望下降。而在AI领域有Scaling Laws作为核心假设,随着模型大小、数据集大小及用于训练的运算量不断增加,模型性能有望提升,这点对大型语言模型相当重要,帮助人们在训练前预测模型能力。
不过,近来高品质训练数据不足成了模型进展趋缓的一大原因,未来训练模型势必耗费更多计算资源,训练成本随之上升。AI领域许多人则将OpenAI新推出的o3,视为AI发展尚未碰壁的证据。
OpenAI o3性能出色、成本高昂OpenAI研究员Noam Brown参与开发OpenAI o系列模型,他表示宣布o1后只过3个月即发布o3,是令人印象深刻的成果,并认为“我们有充分的理由相信该轨迹将会继续下去。”
We announced@OpenAIo1 just 3 months ago. Today, we announced o3. We have every reason to believe this trajectory will continue.pic.twitter.com/Ia0b63RXIk
— Noam Brown (@polynoamial)December 20, 2024
布朗称o3是令人印象深刻的成果。
OpenAI数据显示,o3在基准测试表现出色,尤其新的ARC-AGI通用能力测试得分明显超越其他模型,在一项困难的数学测试取得25%分数,其他模型的分数均未达到2%。
Anthropic共同创办人Jack Clark在个人电子报写道,o3现身意味着明年的AI发展将比今年更快。明年AI领域将把test-time scaling和传统的预训练扩展方法结合起来,期望能有更多模型进展,也许他在暗示Anthropic及其他AI公司应在明年开发出自己的推理模型,这点除OpenAI外,Google有全新Gemini 2.0 Flash Thinking来支持自家发展。
test-time scaling意味着ChatGPT“推理”时需要更多运算,无论是使用更多、更强大的芯片来回答用户问题,还是在芯片上使用更长时间转变成更好的答案,目前还不清楚o3背后如何运行,却都代表回答问题的代价更高。
o3在ARC-AGI通用能力测试的表现可视为模型进展重要指标,其一得分为88%,也比o1最高得分32%来得更高。值得注意的是,参考下图X轴所示可能令人感到震惊,o3取得高得分需要使用价值超过1,000美元的计算资源,成本相当高,而o1计算资源最高只需约5美元、o1-mini不到1美元。提出ARC-AGI基准测试的François Chollet在官方博客写道,OpenAI大约使用170倍的运算量才达到88%分数。
o3在ARC-AGI基准测试取得高分。(Source:ARC Prize)
OpenAI提出月付200美元的CahtGPT Pro方案,以取得使用o1正式版的使用资格。根据外媒报道,OpenAI甚至考虑高达2,000美元月费的方案。当人们看看上述o3使用多少运算量时,或许就能理解OpenAI为何如此设计。
“对大多数用途而言,o3看起来太贵了。但面对学术界、金融界或许多任务业问题的工作,付出数百美元甚至数千美元来取得成功的答案并不会让我们望之却步”,华顿商学院教授Ethan Mollick在X推文写道。
O3 looks too expensive for most use. But for work in academia, finance & many industrial problems, paying hundreds or even thousands of dollars for a successful answer would not be we prohibitive. If it is generally reliable, o3 will have multiple use cases even before costs drop
— Ethan Mollick (@emollick)December 22, 2024
就Ethan Mollick观察,付出更多费用使用o3是值得的。
(首图来源:pixabay)