韩国本土研究团队提出了破解多模态人工智能(AI)“灾难性遗忘(Catastrophic Forgetting)”问题的线索。多模态AI具备同时理解图像和文本的能力,能够像ChatGPT、Gemini、Claude那样,根据照片进行说明,或者在就图片内容提问时给出文字回答。不过,当AI学习新信息或修改既有信息时,会遗忘既有学习信息(知识)的“灾难性遗忘”问题,仍是一大课题。研究团队此次开发出解决这一课题的核心源头技术,备受关注。
韩国电子通信研究院(ETRI)24日表示,语言智能研究室室长 Lim Sujong 领导的研究团队与浦项工科大学、成均馆大学联合开发出了“连续·复合知识编辑技术(MemEIC)”。
这一技术已被人工智能领域国际学术会议“NeurIPS 2025”录用,近期在美国圣迭戈发布。
以往多模态AI主要通过直接修改内部核心参数来改变知识。这是一种从根本上改变既有模型结构的“开颅手术式方法”,在修改知识的过程中,会对已存储信息产生连带影响,暴露出明显局限。
当同时修改视觉信息和语言信息时,两类知识相互混杂,导致AI无法正确理解,因此在面对复合问题时频繁给出错误答案。
例如,依次让AI学习“照片中的甜点是迪拜Q弹曲奇”这一视觉信息,以及“Dujonku在韩国很受欢迎”这一语言信息后,再提问“这种甜点在哪个国家很受欢迎?”,现有多模态AI往往会生成类似“照片中的图像是巧克力松露,在欧洲很受欢迎”这种被严重扭曲的回答。
MemEIC正是为纠正这类问题而开发。该技术受人类大脑结构启发设计,将新信息存储在AI外部记忆中,而非内部参数中,使AI能够在需要时选择性地调取并使用相关信息。就像人脑分为负责不同功能的“左脑”和“右脑”一样,AI也可以将知识加以区分后进行存储和利用。
ETRI强调,这一结构在保持既有模型稳定性的同时,能够灵活地增加新信息,便于实现高扩展性。
实际应用中,引入MemEIC技术的AI能够将分别存储的视觉信息和语言信息准确结合,在上述示例问题中回答称:“照片中的甜点是迪拜Q弹曲奇(Dujonku),在韩国很受欢迎。”
通过将知识分开存储,仅在需要时进行连接的“分离存储·选择性结合”结构,最大限度地降低了不同信息混杂造成的内部干扰,以及既有知识被破坏的问题,使AI在面对复杂问题时也能给出正确答案,从而实现“复合推理”。
联合研究团队为验证技术性能,构建了由1278个条目组成的复合知识编辑基准数据集(CCKEB),并进行了数百条知识连续编辑的实验。结果显示,MemEIC在复合问题上的准确率达到70%左右,相比既有技术36%至52%的水平,性能提升超过两倍。
ETRI介绍称,尤其是在加入新知识后,对既有问题的回答并未发生改变,验证了该技术能够保持应答稳定性的“局部性(Locality)”保留特性。
此次研究的意义在于,不仅仅是缓解AI遗忘现象,更是同时解决了“连续知识编辑”和“复合推理”这两大难题。
ETRI语言智能研究室室长 Lim Sujong 表示:“本次研究的意义在于,使多模态AI在反映实际服务环境中所需最新信息的同时,还能确保可靠性。联合研究团队今后将进一步高度化该技术,使其能够稳定反映产业现场的各类信息。”
另一方面,本研究作为科学技术信息通信部和信息通信企划评估院(IITP)支持的“下一代生成式AI技术开发项目”中“为保障生成式语言模型的可持续性并随时间推移反映信息时效性的学习及应用技术开发”课题的一部分而实施。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。