“即使零经验也能熟练”……UNIST开发AI强化学习新方法

Published 21 Apr.2025 10:11(KST)

Updated 31 Jul.2025 14:23(KST)

open/close

Yoon Seonghwan 教授团队开发在突发情况中也能保持稳定性能的强化学习技术

可应用于机器人、自主驾驶等领域…入选三大人工智能学会之一 ICLR 口头报告论文

即使在陌生环境中也能自主做出正确判断的人工智能技术已经被开发出来。

有望在自动驾驶汽车遇到积雪路面，或机器人搬运的箱子重量突然变化等情况下，提高人工智能的安全性和可靠性。

UNIST人工智能研究生院的Yoon Sunghwan教授团队开发出一种在环境变化下也能在性能无下降的情况下稳定运行的强化学习方法，并被世界三大人工智能学术会议之一——ICLR接收为口头报告论文。在共计11,672篇投稿论文中，仅有不超过2%的207篇获得口头报告机会。

研究团队成员 Lee Hyunkyu 研究员（左）与 Yoon Sunghwan 教授。UNIST 提供

与事先告知正确答案的监督学习不同，强化学习通过最大化人工智能在试错过程中获得的回报来寻找作为问题解决策略的“策略”，在学习方式上更接近人类。但现有强化学习在未学习过的陌生环境中，性能会急剧下降，存在这一局限。

研究团队提出了一种降低累积回报敏感度的学习方法。这是一种在策略参数空间中使累积回报曲面变得平坦的学习策略，以防止因行为变化导致的累积回报值变化过大。

以往方法中，只要自动驾驶汽车在积雪路面上稍微错过减速时机，就会造成巨大的回报损失，进而导致整体性能崩溃；而此次提出的方法即使策略略有变化，性能也能保持稳定。

在实际改变机器人摩擦条件或重量等物理因素的情况下，新提出的学习方法平均回报保持率达到80%至90%，证明了其具有高水平的稳定性和鲁棒性。相反，现有学习方法在同样条件下平均回报降至一半以下，在性能保持方面暴露出局限。

第一作者研究员Lee Hyeongyu表示：“为了降低强化学习参数空间中累积回报的敏感度，我们借用了监督学习领域中使用的SAM（Sharpness-Aware Minimization，敏锐度感知最小化）方法，开发出这种学习方法”，并解释称，“这是一种既高效又易于应用的方式”。

在监督学习中，人工智能模型以计算其偏离正确答案程度的“损失函数”为基准进行学习，SAM通过寻找损失不会突然大幅波动的平缓、平坦区间（flat minima）来进行优化。研究团队将这一概念扩展到强化学习中，不再以损失为对象，而是通过调整学习路径，使累积回报不会急剧变化。

Yoon Sunghwan教授表示：“这一方法有望应用于需要具备高水平泛化性能的强化学习模型的机器人技术和自动驾驶等领域。”

累积回报函数的三维可视化图。

ICLR（International Conference on Learning Representations，国际学习表征会议）与ICML和NeurIPS一起，被视为世界三大人工智能学术会议之一。ICLR 2025将于4月24日至28日在新加坡举行，在来自全球提交的11,672篇论文中，共有3,646篇被接收。

本研究在信息通信规划评价院、韩国研究财团以及UNIST的支持下完成。