“终于读懂AI内心”……为AI训练数据添加人类可理解的说明文本

Published 28 Dec.2025 09:42(KST)

UNIST利用LLM提出将图像数据转换为语言并进行分析的方法论

高效数据筛选流程与多模态AI研究新方法，将刊登于EMNLP 2025

人工智能（AI），尤其是深度学习模型，一直被称为根本看不透内部机制的所谓“黑乎乎”的黑盒（Black-box）。

当人们问“AI，你怎么会得出这种结果？”时，过去总是一副“你就那么知道着吧”的独断模样的AI，如今终于开始“解释自己”了。

一种可以把复杂运算中隐藏的AI判断依据翻译成人类语言的“黑盒解毒剂”已经被开发出来。现在我们可以理直气壮地问AI：“你为什么得出这样的结论？”

给它看一张照片，它能神乎其神地判断出“这是鸟”，但究竟是看了照片的“哪一部分”才判断为鸟，人类却很难搞清楚。

迄今为止，为了解决这一黑盒问题，人们主要集中在剖析AI模型的内部结构上，而如今出现了一种新的思路：不是从模型本身入手，而是用人类语言来解释作为AI学习原料的“数据”，从而寻找破解之道。

蔚山科学技术院（UNIST）人工智能研究生院的 Kim Taehwan 教授团队28日表示，他们提出了一种学习方法论：通过将AI学习数据转换为人类可以理解的“自然语言”，来解释AI黑盒。

研究团队，（自左起）Kim Taehwan 教授、Kim Chaeri 研究员（第一作者）、Bae Jaeyeon 研究员（第一作者）。UNIST 提供

既有的可解释人工智能（XAI）研究，主要集中在对已完成训练的模型的内部运算过程或预测结果进行事后分析。

相比之下，该研究团队则聚焦于AI学习的源头——“数据”，通过把数据的特征具体化为说明性文本并对其进行分析，来厘清模型的决策过程。

研究团队首先让类似ChatGPT的大型语言模型（LLM）用多句话描述照片中物体的特征。为生成没有幻觉现象的高质量说明文本，还让模型参考了网络百科全书等外部知识。

LLM生成的几十条说明文本，并非都对模型训练有效。为识别这些生成说明中，哪些是AI模型在得出正确答案时真正参考过的说明，研究团队设计了一个名为“文本影响力分数”（IFT：Influence scores For Texts）的定量分析指标。

利用大型语言模型（LLM）生成数据说明文，并对其进行筛选和学习的流程概述。

IFT由两个要素相加计算而成：一是影响力分数，即当从训练数据中剔除某条特定说明句时，模型预测误差发生多大变化，用以衡量该说明对学习的贡献度；二是CLIP分数（CLIP Score），即文本说明在语义上与实际图像的视觉信息有多一致。

大型语言模型生成的图像说明文本与人工智能计算出的影响分数示例。

例如，在鸟类分类模型中，如果相比于描述背景颜色的说明，描述“鸟喙的形状”或“羽毛的花纹”的说明文本获得了更高的IFT分数，就可以解释为该模型是通过学习鸟喙和羽毛的特征来识别目标的。

为确认这些影响力更大的说明文本是否确实有助于模型正确作答的性能，研究团队设计了单独的基准实验。他们在模型训练时一并提供这些高影响力说明文本，并在新的数据集上执行分类任务，即进行跨模态迁移实验。结果显示，使用高影响力说明文本时，模型比以往方法更稳定地表现出更高性能。这一验证结果表明，模型在学习过程中实际利用过的说明，对性能也具有实质性的贡献。

Kim Taehwan 教授表示：“本研究提出的，让AI自行解释其所学习数据的方式，有可能成为从本质上揭示深度学习复杂决策过程的方法”，“今后也将成为透明理解黑盒AI系统的基础。”