揭示人类额叶对目标与不确定性的分离学习原理
提出解决强化学习“安全性—灵活性两难”的可能性
即使目标突然改变或情境变得不确定,人类也能在相对稳定判断的同时迅速修正策略。相反,以 AlphaGo 为代表的既有强化学习基础人工智能(AI)在目标变化方面较为脆弱,在不确定环境中也表现出灵活性不足的局限。国内研究团队证实,这种差异源于人类前额叶独特的信息处理结构,并据此提出了实现“像大脑一样既稳定又灵活学习的 AI”的线索。
韩国科学技术院(KAIST)14日表示,脑认知科学系 Lee Sangwan 教授研究团队与 IBM AI 研究所(IBM AI Research)合作,揭示了人类前额叶在处理目标变化和环境不确定性时所依循的核心原理。此次研究被评价为从根本上解释了既有 AI 强化学习长期面临的“安全性—灵活性两难”问题,并为下一代学习算法的设计方向提供了指引。
人类与人工智能在流动性—稳定性之间的平衡(摘自论文。copyright: Nature Communications)。左图展示目标和环境不确定性持续变化的情境,说明为适应变化目标而进行决策的流动性概念,以及在环境变化中仍不受干扰的决策稳定性概念。右图展示人工智能模型(MB agent、MF agent)与人类受试者在决策流动性—稳定性平衡方面的测量结果。研究团队提供
View original image目标与不确定性,前额叶采取“分离存储”
研究团队注意到,既有强化学习模型在目标频繁变化时学习稳定性会崩溃,在环境变得不确定时适应能力会下降,而人类却能同时兼顾这两个要素。为了解释这一现象,研究人员将大脑功能磁共振成像(fMRI)实验、强化学习模型和 AI 分析技术相结合,精细分析了人类前额叶的信息表征方式。
结果显示,人类的侧前额叶皮层(lateral prefrontal cortex)具有一种结构,可将“目标信息(goal information)”与“不确定性信息(uncertainty information)”彼此分离存储(factorized embedding),从而避免相互干扰。该结构越清晰,人在目标发生变化时就越能快速修正策略,同时即便环境不稳定,也能保持判断的稳定性。
研究团队解释称,这一结构与通信技术中可同时处理多种信号的多路复用(multiplexing)具有相似特性。也就是说,前额叶同时运行着对目标变化高度敏感的通道,以及将环境不确定性分离出来加以处理的通道。
超越“学什么”,还要决定“如何学”的元学习
此次研究中尤为引人关注的一点,是前额叶的作用并不止于简单执行学习。研究人员确认,前额叶具有一个“元学习(meta-learning)”通道,能够根据情境自行决定采用何种学习策略。
这意味着,人类大脑不仅具备“学什么”,还具备“如何学”的学习结构。研究团队表示,正是这种元学习能力,使得人类即便身处不断变化的环境中也能维持计划,并在必要时灵活调整策略,这是其根本原因。
从左起为 Lee Sangwan KAIST 教授、Seong Doyoon 博士研究生、(上方)IBM 人工智能研究所 Mattia Rigotti 博士。KAIST 提供
View original image向脑启发 AI 与安全人工智能的扩展可能性
本研究可扩展应用于个体强化学习与元学习能力分析、定制化教育设计、认知能力诊断、人机交互(HCI)等多个领域。尤其是如果将前额叶的信息表征结构应用于 AI,有望推动开发出更能理解人类意图与价值、并减少危险决策的“安全 AI”。
Lee Sangwan 教授表示:“本研究从 AI 视角阐明了大脑在跟随变化目标时仍能稳定制定计划的工作原理”,并称“这一原理将成为未来 AI 像人类一样适应变化,并以更安全、更智能方式进行学习的下一代 AI 的核心基础”。
此次研究由 KAIST 博士课程学生 Sung Yundo 担任第一作者,IBM AI 研究所的 Mattia Rigotti 博士担任第二作者,Lee Sangwan 教授担任通讯作者。研究结果已于上月26日发表在国际学术期刊《Nature Communications》上。
论文题目为《侧前额叶皮层中目标与不确定性的分离嵌入引导稳定而灵活的学习(Factorized embedding of goal and uncertainty in the lateral prefrontal cortex guides stably flexible learning)》,数字对象唯一标识符(DOI)为 10.1038/s41467-025-66677-w。
本研究获得科学技术信息通信部“极限挑战研究开发(R&D)项目”的资助。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。