“黄色葡萄、紫色香蕉？…超越视觉概念理解，实现‘会想象的人工智能’”

by Jeong Ilwoong

Published 30 Nov.2023 08:54(KST)

“黄色葡萄”“紫色香蕉”等从未见过的视觉概念，如今已经可以被人工智能理解并加以想象。由此，人们期待与人工智能推理能力和想象力相关的研究领域有望加快发展。

KAIST表示，计算机系教授 An Sungjin 研究团队与谷歌 DeepMind 以及美国罗格斯大学开展国际联合研究，开发出一种能够通过组合视觉知识来理解新概念的人工智能模型，以及用于执行相关程序的基准测试系统。上述成果于本月30日公布。

（从左起）An Sungjin KAIST 计算机系教授、Kim Youngbin KAIST 计算机系硕士研究生、Gautam Singh 罗格斯大学博士研究生、Park Junyoung KAIST 计算机系硕士研究生、DeepMind 首席研究员 Chalha Galsha。KAIST 提供

人类可以学习“紫色葡萄”“黄色香蕉”等一般概念，并将其拆分、重新组合，从而具备“想象”出“黄色葡萄”“紫色香蕉”等现实中不存在概念的能力。

这种能力被称为“系统性泛化”或“组合性泛化”，被视为实现通用人工智能过程中的核心要素。

自从1988年美国认知科学家 Jerry Fodor 与 Zenon Pylyshyn 发表主张，认为无法通过人工神经网络解决系统性泛化问题以来，这一问题在长达35年的人工智能深度学习领域中一直被视为必须攻克的课题。

在人工智能深度学习领域中，系统性泛化过程出现的问题并不仅限于语言领域，在视觉信息中同样存在。然而，迄今为止研究主要聚焦于语言的系统性泛化，相对而言，关于视觉信息的研究一直较为匮乏。

为此，国际联合研究团队开发了一个可用于研究视觉信息系统性泛化的基准测试系统，被期待能为此前一直处于空白状态的视觉信息研究开辟新局面。不过，与语言不同，视觉信息并不具有明确的“单词”或“符号（token）”结构，如何学习这一结构并实现系统性泛化，将成为新的挑战课题。

An Sungjin 教授表示：“视觉信息的系统性泛化是实现通用人工智能的必备能力。本次研究有望加快人工智能在推理能力和想象能力相关领域的发展。”

作为本次研究的参与者之一，同时也是 DeepMind 负责人研究员及瑞士洛桑联邦理工学院（EPFL）教授的 Caglar Gulcehre 表示：“一旦实现系统性泛化，预计未来可以用远少于现在的数据，就让人工智能的性能得到大幅提升。”

此外，联合研究团队的这一成果将于下月10日至16日在美国新奥尔良举行的“第37届神经信息处理系统大会（NeurIPS）”上发表。

本报道由人工智能(AI)翻译技术生成。