图灵奖颁给强化学习师徒，一个造船改行写代码，一个痛批AI投身AGI

文章来源：08ai导航网发布时间：2025-08-17 09:47:00

他们为ChatGPT/AlphaGo奠定基石

计算机最高奖图灵奖揭晓！

强化学习先驱Andrew Barto与Richard Sutton共同获奖，他们被评价为“引领基础AI技术开发的研究人员”。

值得一提的是，两位是师徒关系，Richard Sutton是Andrew Barto他第一位博士生。

两人1998年合著的《强化学习：导论》，时至今日也是强化学习的标准教材，引用数接近8万，尤其在最近五年也仍在持续攀升。

最近几年来AI的重大进展，从AlphaGo到ChatGPT，都与他们开创的强化学习技术密切相关。

尽管Barto和Sutton的算法是几十年前开发的，但强化学习在实际应用中的重大进展却是在过去十五年中通过将强化学习与深度学习算法（由2018年图灵奖得主Bengio、Hinton和LeCun 创）相结合而实现的，这催生了深度强化学习技术。

强化学习最著名的例子是AlphaGo在2016年和2017年战胜了最顶尖的人类围棋选手。近期的另一项重大成就是ChatGPT。

ChatGPT是一个分两个阶段训练的大语言模型，其中第二阶段采用了一种名为基于人类反馈的强化学习（RLHF）的技术，以捕捉人类的期望。

强化学习在许多其他领域也取得了成功。一个备受瞩目的研究实例是机器人在手中操作技能学习以及解决实体魔方问题，这表明在模拟环境中进行所有强化学习，最终在差异显著的现实世界中也能取得成功。

其他领域包括网络拥塞控制、芯片设计、互联网广告、优化、全球供应链优化、提升聊天机器人的行为和推理能力，甚至改进计算机科学中最古老问题之一——矩阵乘法的算法。

最后，一项部分受神经科学启发的技术也反过来带来了启发。近期的研究（包括Barto的工作）表明，人工智能领域的特定强化学习算法能够很好地解释关于人类大脑中多巴胺系统的一系列研究发现。

美国计算机协会（ACM）**Yannis Ioannidis称“Barto和Sutton的工作展示了运用多学科方法应对我们领域长期存在的挑战所蕴含的巨大潜力”。

从认知科学、心理学到神经科学等研究领域都启发了强化学习的发展，强化学习为人工智能领域一些最重要的进展奠定了基础，也让我们对大脑的工作方式有了更深入的了解。

Barto和Sutton的工作并非我们可以抛在身后的垫脚石。强化学习仍在不断发展，为计算机科学和许多其他学科的进一步发展提供了巨大潜力。我们用本领域最负盛名的奖项来表彰他们是恰如其分的。”

谷歌高级副总裁Jeff Dean（谷歌为图灵奖提供资金支持）指出，“Barto和Sutton开创的强化学习直接回应了图灵的挑战”。

在过去几十年里，他们的工作一直是人工智能发展的关键。他们开发的工具仍然是人工智能热潮的核心支柱，带来了重大进展，吸引了大批年轻研究人员，并推动了数十亿美元的投资。强化学习的影响在未来仍将持续。”

参考链接：[1]https://amturing.acm.org

上一篇: 祝贺Manus创新的同时，也别过度脑补

Manus 今天刷屏了，我也没有拿到邀请码。看了视频，有创新，有对我产生启发，我开始思考我们的创业产品路径是不是对，会不会未来被这样的产品吃掉。进一步，也在思考，Manus 的能力会不会被 OpenA