有计算机科学界诺贝尔奖之称的ACM图灵奖(ACM A.M. Turing Award),揭晓2024年得主,为强化学习(Reinforcement Learning)领域的两位先驱,分别是Andrew Barto与Richard Sutton。两位学者从1980年代开始,便逐步创建强化学习的核心理论与算法框架,奠定了人工智能代理通过经验和奖励信号自主学习的基础,开创了机器自主决策的现代应用。
Andrew Barto目前为美国麻州大学阿默斯特分校(University of Massachusetts Amherst)资讯与计算机科学系的荣誉退休教授,Richard Sutton则任职于加拿大阿尔伯塔大学(University of Alberta)计算机科学系,同时兼任人工智能创业公司Keen Technologies的研究科学家。
Andrew Barto与Richard Sutton最主要的贡献,是从心理学与神经科学的概念出发,通过创建时序差分学习(Temporal Difference Learning)算法,让计算机在未知环境下,能根据累积的经验自行调整行为,逐步提升决策品质。此外,他们也提出策略梯度法(Policy Gradient Method)以及以神经网络表达学习函数,而这些研究成果正是强化学习的实务基础。他们于1998年共同出版的《Reinforcement Learning: An Introduction》,至今仍被视为该领域的权威著作,引用数超过75,000次。
事实上,强化学习的核心概念并非近年才出现,早在1950年代,计算机科学先驱Alan Turing以及Arthur Samuel就曾提出通过奖惩方式来训练机器学习的方法。不过,一直到Andrew Barto与Richard Sutton于1980年代重新梳理并提出可行的数学框架与算法之前,这项技术始终未能广泛应用。
过去十年深度学习快速崛起,让强化学习技术得以再度受到重视,例如Google旗下DeepMind研发的围棋程序AlphaGo击败人类顶尖棋手,以及近期热门的对话机器人ChatGPT中,强化学习扮演了关键角色。其他如芯片设计、机器人控制、网络拥塞控制,甚至供应链优化等领域,也已开始大规模导入强化学习技术。
ACM主席Yannis Ioannidis表示,Barto与Sutton的研究跨越了心理学、认知科学、神经科学等多个领域,他们奠定的强化学习基础,不仅支撑了如今人工智能的许多突破,也让我们对人脑运行有了更深刻的理解。这次图灵奖奖金由Google赞助为100万美元。ACM图灵奖从1966年开始,每年颁发给在计算机科学领域做出长远贡献的个人,得奖者多被视为当代科技进步的重要推手。