“这是癌症”……疾病诊断领域，AI已超越人类

by Park Eugenie

Published 09 Apr.2025 11:01(KST)

Updated 09 Apr.2025 17:58(KST)

open/close

美斯坦福大学《AI指数报告2025》：GPT-4诊断准确率比人类医生高16个百分点

有报告指出，人工智能（AI）在医疗诊断领域的实力也已经超越人类。OpenAI最新的人工智能模型GPT-4被评估为比人类医生更出色。有评价认为，“AI医生”的出现已经进入可见范围。

根据美国斯坦福大学人本人工智能研究所（HAI）8日（当地时间）发布的《AI指数2025》报告，GPT-4在基于临床案例的诊断测试中，准确率比人类医生高出16个百分点。报告称：“总体来看，GPT-4单独进行诊断时表现最佳，结果也最为一致。”报告还表示：“相反，人类医生单独诊断时性能较低。不过，当人类医生与AI协同工作时，依据使用方式不同，绩效差异很大。”

在《AI指数2025》报告中，关于AI与人类医生诊断对比测试的实验，是向GPT-4和美国50名临床医生（26名专科医生、24名住院医师）提供6名疑难病例患者的案例，然后进行诊断。随后比较“GPT-4单独诊断”“GPT-4与人类医生协作诊断”“人类医生单独诊断”的结果。第一轮实验比较“GPT-4与人类医生”，第二轮实验比较“与GPT-4协作的人类医生与单独诊断的人类医生”，以此检验诊断准确性。

结果显示，在GPT-4参与诊断的组别中，准确率的中位数为92%，比人类医生单独诊断组的76%高出16个百分点。中位数是指将数据按顺序排列后处于正中间的数值。此外，与GPT-4协作的医生组的中位数为76%，仅比人类医生单独诊断组的74%高出2个百分点，这一差异也被认为不具有统计学意义。关于准确度，由两名未直接参与实验的内科专科医生根据事先设定的标准独立进行评估，他们在不知道每项诊断由谁完成的前提下进行打分。

此次报告的评价具有重要意义，因为这表明AI在医疗一线的地位正在发生变化。AI已经在机器人手术、医学数据分析以及基于AI的癌症筛查解决方案等领域得到广泛应用，但此前主要仍停留在辅助医生判断的层面。

随着被视为全球最具公信力的AI白皮书之一的《AI指数》给出分析结果，指出像GPT-4这样的生成式人工智能模型在诊断方面优于医生，有观点认为，在医院中常见“AI医生”的日子已为期不远。

报告评价称：“这一实验结果总体表明，GPT-4在诊断方面的性能最高且具有一致性”，“即使在AI与医生协作的情况下，绩效也会因医生个人的判断方式和利用能力不同而有所差异。”报告还指出：“在癌症发现、重症患者识别等领域，近期也出现了AI表现优于医护人员的研究结果”，“AI的应用范围正从简单诊断拓展到更加复杂的临床决策领域。”

同时，在衡量GPT-4临床知识水平的代表性标准——“MedQA”基准测试中，GPT-4以去年的数据为基准，取得了96.0%的准确率。与2022年的67.6%相比，足足提升了28.4个百分点。MedQA是基于美国医师国家考试水平的医学试题构成的测试，用于评估AI的临床知识水平。

报告补充称：“已有研究结果表明，AI与医生的协作可以带来最优结果，因此这一领域将成为今后重要的研究主题。”但同时也指出：“AI系统本身蕴含风险，例如生成与事实不符信息的‘幻觉’问题以及难以预测的错误等，围绕其可靠性与安全性的担忧依然存在，因此有必要制定考虑到这些风险因素的政策预案。”