DeepMind持续改进人工智能的数学能力,数学推理模型AlphaGeometry2在解决国际数学奥林匹亚(IMO)几何题目上的表现,已正式超越金牌选手的平均水准。研究团队测试了2000至2024年间所有IMO几何题,AlphaGeometry2以84%的解题成功率大幅超越前代系统AlphaGeometry1的54%,并且研究团队挑出难度更高的IMO Shortlist几何题子集IMO-AG-30,AlphaGeometry2成功解出全部题目,展现人工智能在数学推理领域的突破性能力。
这项研究来自DeepMind的数学与人工智能团队,核心技术结合了语言模型与符号推理系统,通过强化学习与增强搜索算法,让人工智能能够更有效率地善用辅助线、拆解问题并创建完整的几何证明。
新版本扩展了AlphaGeometry的几何领域语言,使其更能够处理复杂的几何问题,包括轨迹定理(Locus Theorem)、线性方程式与非构建性命题(Non-Constructive Problem Statement),能够形式化处理,也就是可以读懂IMO几何题的比例从66%提升至88%。同时,运算引擎的性能也大幅提升,通过C++重新实例符号处理机制,并优化规则集,使推理过程更为精确与高效。
在测试结果中,AlphaGeometry2对IMO几何题的解题能力,已达专业数学竞赛选手的水准,甚至在部分问题的解法上展现超越人类的创造力。DeepMind研究团队表示,这项技术突破不仅是数学解题系统的进展,也使人工智能在形式化推理、自动证明与教育应用打开新的可能性。
传统的数学自动推理技术主要依赖代数运算与计算机代数系统(CAS),例如Wu's Method或Gröbner Bases,通过将几何问题转换为代数联立方程式来求解,而AlphaGeometry2采用了更贴近人类解题方式的合成几何推理方法,并通过语言模型驱动推导过程,使其能够从自然语言描述的题目中构建完整的证明。
目前的研究仍有部分限制,AlphaGeometry2无法处理变量点数(Variable Number of Points)、不等式与非线性方程式的几何问题,这些类型的题目在IMO中虽然不常见,但仍然是自动几何推理领域尚未解决的挑战。此外,部分涉及投影几何(Projective Geometry)与几何反转(Inversion)的问题,仍然超出系统现有能力范围,研究团队认为,未来通过更高效的问题拆解策略与强化学习机制,能够进一步缩小这些差距。