国际数学奥林匹亚竞赛(International Mathematical Olympiad,IMO)是历史最悠久、规模最盛大的中学生数学竞赛,自1959年以来每年举办一次,今年的IMO已是第65届,更有来在AI霸权Google DeepMind的挑战。

Google DeepMind推出的AlphaProof,是一个以强化学习为基础的新型形式数学推理系统,通过产生并验证数百万个证明进行自我训练,逐步解决更困难的问题;以及AlphaGeometry 2,是几何解题系统的升级版本,由Gemini模型所支持。这两套AI系统共同解决今年IMO竞赛6道题目中的4题,达到银牌得主的水准,并展现数学推理能力的巨大进步。

这次由IMO金牌得主、菲尔兹奖(Fields Medal)得主的著名数学家Timothy Gowers教授,以及两届IMO金牌得主、IMO 2024试题委员会主席Joseph Myers博士,根据IMO评分规则对Google DeepMind的系统进行评分。

Google DeepMind指出,今年IMO竞赛题目被翻译成正式的数学语言,让这两套AI系统能够理解。在正式比赛中,学生分两节提交答案,每节4.5小时。Google DeepMind的系统在几分钟内先解决一个问题,并花3天时间解决其他问题。

AlphaProof通过确定答案并证明其正确性,成功解决两个代数问题和一个数论问题,其中包括今年竞赛最困难的问题,仅5名参赛学生有解决,加上AlphaGeometry 2证明的几何问题,共解出四个问题,还有两个组合数学问题未解决。

今年IMO竞赛六个问题中的每解一题可获7分,总分最高42分,金牌门槛则为29分。Google DeepMind的系统获得28分,距离金牌只有一步之遥。

“主要条件是,该程序比人类选手需要更长的时间,其中一些问题需要超过60个小时,当然处理速度比人类大脑快得多。”Timothy Gowers赛后通过X(前身Twitter)谈道,“如果人类选手在每个问题上允许思考这么长的时间,他们无疑会获得更高分数。”尽管存在限制,他认为这种AI系统可成为有价值的研究工具。

If the human competitors had been allowed that sort of time per problem they would undoubtedly have scored higher.

Nevertheless, (i) this is well beyond what automatic theorem provers could do before, and (ii) these times are likely to come down as efficiency gains are made.

— Timothy Gowers @wtgowers (@wtgowers)July 25, 2024

数学家Timothy Gowers分享Google DeepMind挑战IMO竞赛的看法。

(首图来源:Google DeepMind)