“这是癌症” 超越医生的AI医生

图片由ChatGPT提供

有报告显示，人工智能（AI）在医疗诊断领域的能力已经超越人类。OpenAI最新的人工智能模型GPT-4被评估为比人类医生更出色。有观点认为，“AI医生”的出现已经进入可见范围。

根据美国斯坦福大学人本人工智能研究所（HAI）于8日（当地时间）发布的《AI指数2025》报告，GPT-4在基于临床病例的诊断测试中，准确率比人类医生高出16个百分点。报告称：“总体来看，GPT-4单独进行诊断时的表现最好，结果也最为一致。”报告还表示：“相比之下，人类医生单独诊断时的性能较低。不过，人类医生与AI协作时，依据其使用方式不同，诊断成绩的差异很大。”

在《AI指数2025》报告中，关于AI与人类医生的诊断测试实验，是向GPT-4和美国50名临床医生（包括26名专科医生和24名住院医师）提供6名疑难患者的病例，然后进行诊断。随后比较“GPT-4单独诊断”“GPT-4与人类医生协作诊断”“人类医生单独诊断”三种情况下的诊断结果。第一轮实验比较的是“GPT-4对人类医生”，第二轮实验比较的是“与GPT-4协作的人类医生对人类医生”，从而检验诊断准确性。

结果显示，在由GPT-4进行诊断的组别中，准确率的中位数为92%，比人类医生单独诊断组（76%）高出16个百分点。中位数是指将数据按大小排序后处于正中间的数值。另外，与GPT-4协作的医生组的中位数为76%，仅比人类医生单独诊断组（74%）高出2个百分点，这一差异也被认为不具有统计学意义。关于准确率，两名未参与实验的内科专科医生依据事先设定的标准进行独立评估，他们在不知晓每项诊断由谁完成的前提下进行打分。

此次报告的评估结果之所以具有意义，在于它显示出AI在医疗一线的地位正在发生变化。AI已经在机器人手术、医学数据分析以及基于AI的癌症筛查解决方案等领域得到广泛应用，但此前主要停留在辅助医生判断的层面。

被视为全球最具公信力的人工智能白皮书之一的《AI指数》此次给出结论称，像GPT-4这样的生成式AI模型在诊断方面优于医生，由此也出现了“在医院中普遍见到AI医生的日子已不远”的预测。

报告指出：“这一实验结果表明，GPT-4在诊断方面整体性能最高且具备一致性”，“即便在AI与医生协作的情况下，诊断成绩也会因医生个人的判断方式和使用能力不同而产生差异。”报告还表示：“在癌症发现、重症患者识别等领域，也有近期研究显示AI的表现优于医护人员”，“AI的应用范围正在从简单诊断扩展到更加复杂的临床决策领域。”