Google旗下人工智能实验室DeepMind宣布推出全新AI系统AlphaEvolve,目标针对具备“可机器评分”特性的问题进行优化求解。根据官方说法,AlphaEvolve已成功应用于Google内部AI训练基础架构的优化任务,并将开放给部分研究人员进行早期测试。
当前主流AI模型普遍面临“幻觉问题”(hallucination),即模型可能生成看似合理但实际错误的答案。这一点在如GPT-3等大型语言模型中尤为明显,甚至因其架构复杂,幻觉发生机率反而更高。
DeepMind为此引入一项创新机制:自动评估架构。AlphaEvolve不仅产生多种候选答案,还能自行对这些答案进行筛选与打分,最终挑出最准确的解法,某种程度上具备“自我纠错”能力。
这类技术并非首次出现,DeepMind早在几年前就曾于数学问题中运用类似方法,不过官方强调,AlphaEvolve内置的是新一代Gemini模型,性能远超先前系统。
虽然技术听起来突破性十足,但AlphaEvolve有明显限制:
系统只能处理“可公式化自我评估”的问题,因此仅适用于如计算机科学、优化理论、算法设计等领域。
最终输出结果只能是算法或数学表示,不适用于开放性或非结构性问题(如语言理解、政策推论等)。
用户在使用AlphaEvolve时,除了输入问题本身外,还需提供对应的评估标准,通常以数学公式或可计算条件定义,让系统能自动判断解法优劣。
在内部测试中,DeepMind让AlphaEvolve解题约50题,范围涵盖几何、组合数学等领域,系统能在75%的题目中“重新发现”现有最优解,并在20%的案例中进一步提出改良版本。
此外,AlphaEvolve也被应用在Google实际业务中,如提升数据中心性能、加速模型训练等任务。据DeepMind表示,这套系统所提出的资源调度算法,已为Google回收了全球约0.7%的计算资源,并让Gemini模型的训练时间缩短了1%。
需要强调的是,目前AlphaEvolve尚未做出前所未见的重大发现。举例来说,系统在针对Google TPU加速芯片的优化提案中,其建议内容其实早已由其他内部工具标记过。
不过DeepMind强调,AlphaEvolve的价值在于大幅节省专家处理重复性任务的时间,让人类研究者能更专注于策略规划与创新发展,并期望该技术未来可成为辅助科研的关键伙伴。