“读懂AI的想法” KAIST可视化AI决策内部结构

by Jeong Ilwoong

Published 26 Nov.2025 08:15(KST)

基于深度学习（在学习过程中作为人工神经网络，从示例数据中自主训练出通用规则）的图像识别技术正快速高度发展。然而，对于人工智能（AI）在内部依据何种标准来识别和判断图像这一问题，目前仍难以给出明确解释。尤其是，用于分析大规模模型如何将事物组合成某种概念并得出结论的技术，依然是短期内难以解决的课题。

韩国国内研究团队提出了寻找这一问题答案的线索。

（自左起）KAIST博士课程在读 Park Kwon-dahi、博士课程在读 Lee Se-hyun，（上方）教授 Choi Jae-sik。KAIST提供

KAIST表示，金在哲AI研究生院崔在植教授研究团队开发出一项“可解释性（Explainable AI，下称XAI）”技术，通过以电路为单位对模型内部的概念形成过程进行可视化，使人类能够理解AI的判断依据，并于26日对外公布。

在深度学习模型内部，存在类似人脑的名为“神经元（Neuron）”的基本计算单元。神经元具备感知图像中细小特征（耳朵形状、特定颜色、轮廓线等）的功能，并通过计算数值（信号）传递至下一层。

相较之下，“电路”是指多个此类神经元彼此连接，共同识别一个含义（概念）的结构。例如，要识别“猫耳朵”这一概念，就需要感知耳朵轮廓的神经元、感知三角形形态的神经元、感知毛色纹理的神经元等按顺序依次工作，这些神经元共同构成一个功能单元（电路）。

但截至最近，解释技术多以“特定神经元对应特定概念”为前提，采用以单一神经元为中心的研究路径。与此不同，实际的深度学习模型是通过多个神经元协同作用的电路结构来形成概念。研究团队据此提出，将AI的概念表征单元从神经元扩展到电路层面进行解析的新技术。

研究团队开发的“细分概念电路（Granular Concept Circuits，下称GCC）”技术，是一种通过电路单元分析并可视化图像分类模型在内部形成概念过程的新方法。

GCC通过计算神经元敏感度（Neuron Sensitivity）和语义流动得分（Semantic Flow），自动追踪电路。

神经元敏感度是衡量某一神经元对某种特征反应有多敏感的指标；语义流动得分则反映该特征向下一层概念传递的强度。借此可以分阶段可视化颜色、质感等基础特征如何被组装成更高层次的概念。

研究团队提出的概念电路概要示意图。KAIST提供

研究团队在对特定电路进行短暂失活（ablation）的实验中发现，当电路被关闭后，其所负责的概念随之消失，AI的预测结果也确实发生了变化，从而直接证明了被失活电路确实在执行相应概念识别功能。

此次研究首次以精细的电路单元形式揭示了复杂深度学习模型内部概念形成的真实结构，具有重要意义。外界评价认为，该研究在“如何结构性地观察AI在思考什么”方面取得了进展。

研究团队表示，通过这一技术，有望强化AI判断依据的透明性，并在误分类原因分析、偏见（Bias）检测、模型调试与结构改进、安全性与责任性提升等整个XAI领域展现出切实的应用潜力。

崔教授表示：“本研究团队提出的，是与以往通过简化复杂模型来进行说明的方式不同的、首次从模型内部细分电路单元进行精密解析的研究路径”，“由此证明了可以自动追踪并可视化AI所学习到的概念”。

另一方面，本次研究由KAIST金在哲AI研究生院的权多熙和李世炫博士研究生共同担任第一作者。研究成果近期已在“国际计算机视觉学术大会（International Conference on Computer Vision, ICCV）”上发表。

本报道由人工智能(AI)翻译技术生成。