“不会就该说‘不知道’” 揭示AI过度自信成因，可靠性大幅提升

by Jeong Ilwoong

Published 27 Apr.2026 08:56(KST)

人工智能（AI）的“过度自信”是在自动驾驶和医疗诊断等领域必须警惕的风险因素。因为当AI不肯回答“我不知道”，而是给出错误或模棱两可的答案时，反而可能干扰用户的判断。国内一支研究团队提出了一种方法，通过学习让AI自行识别“自己不知道的情境”，从而减少过度自信、提高可信度。

KAIST表示，脑认知科学系讲席教授 Baek Seibeom 研究团队将引发AI过度自信的根本原因指向“随机权重初始化”，并提出以“随机噪声”对神经网络进行短暂训练的一种“预热”策略作为解决方案。相关内容于27日公布。

KAIST百世范讲席教授，（上方）KAIST千正焕硕士。KAIST供图

随机权重初始化是指在神经网络开始训练时，根据概率分布随机设定权重的方式。这一方式在利用人工神经网络进行数据学习的“深度学习（deep learning）”中被广泛采用。随机噪声（random noise）是指没有实际意义的任意输入数据。

研究团队注意到，AI的过度自信问题不仅在训练之后出现，而且从训练起点——初始化阶段就已经存在。在随机初始化的神经网络中输入任意数据时，即便尚未学习任何内容，也会表现出较高的置信度，这一现象已被确认。

这一特性在生成式AI中，可能进一步演变为制造“与事实不符内容”的一种“幻觉（将并不存在的信息编造得似乎真实可信的现象）”问题。

研究团队从生物大脑中找到了破解这一问题的线索。

人类大脑从出生前起，就在没有外界刺激的情况下，通过“自发性神经活动（在无外部输入时自发产生的脑信号）”来形成神经回路。

研究团队将这一概念应用于人工神经网络，在实际训练开始前先输入随机噪声，实施一种预先学习的“预热阶段”。这一过程使AI在正式开始学习前，就能自行调节不确定性。

经过预热过程的AI模型在初始阶段的置信度较低，但此前表现出的过度自信偏差得到缓解。也就是说，AI在学习数据之前，会先学习“我现在还一无所知”的状态。研究团队解释称，经过这一过程后，AI模型的准确度（预测正确的比例）与置信度（模型自认为正确的程度）会自然趋于一致并得到改善。

经过预热的AI在首次接触数据时的反应也出现了差异。传统模型即便面对未学习过的数据，也倾向于表现出高度自信并给出错误答案。而应用预热学习的模型则会降低置信度，明显提升了判断“我不知道”的能力。

人工智能模型在进行预热学习后校正可信度的情况与未进行预热学习的情况对比（AI生成图像）。KAIST供图

此次研究表明，AI有望不仅停留在“答对问题”的层面，还可以具备区分“自己知道什么”和“自己不知道什么”的能力，即所谓“元认知（meta-cognition，自我觉察自身认知状态的能力）”。

Baek 讲席教授表示：“本次研究通过模拟大脑发育过程，展示了AI能够以更接近人类的方式来认知自身的知识状态”，“不仅仅是提高准确度，更在于提出了AI判断自身不确定性的原理，这一点具有重要意义。”

他同时表示：“研究团队的成果今后可应用于包括自动驾驶、医疗AI、生成式AI等对高可信度有严格要求的领域在内的所有深度学习模型的初始化方式，有望成为提升整个AI体系可信度的关键技术。”

此外，本次研究由KAIST脑认知科学系硕士 Cheon Jeonghwan（现任陆军一等兵）担任第一作者。研究结果已于本月9日在线发表于AI领域国际学术期刊《Nature Machine Intelligence》。

本报道由人工智能(AI)翻译技术生成。