有报告显示,人工智能(AI)在医疗诊断领域的能力已经超越人类。OpenAI最新的人工智能模型GPT-4被评估为比人类医生更出色。有观点认为,“AI医生”的出现已经进入可见范围。
根据美国斯坦福大学人本人工智能研究所(HAI)于8日(当地时间)发布的《AI指数2025》报告,GPT-4在基于临床病例的诊断测试中,准确率比人类医生高出16个百分点。报告称:“总体来看,GPT-4单独进行诊断时的表现最好,结果也最为一致。”报告还表示:“相比之下,人类医生单独诊断时的性能较低。不过,人类医生与AI协作时,依据其使用方式不同,诊断成绩的差异很大。”
在《AI指数2025》报告中,关于AI与人类医生的诊断测试实验,是向GPT-4和美国50名临床医生(包括26名专科医生和24名住院医师)提供6名疑难患者的病例,然后进行诊断。随后比较“GPT-4单独诊断”“GPT-4与人类医生协作诊断”“人类医生单独诊断”三种情况下的诊断结果。第一轮实验比较的是“GPT-4对人类医生”,第二轮实验比较的是“与GPT-4协作的人类医生对人类医生”,从而检验诊断准确性。

结果显示,在由GPT-4进行诊断的组别中,准确率的中位数为92%,比人类医生单独诊断组(76%)高出16个百分点。中位数是指将数据按大小排序后处于正中间的数值。另外,与GPT-4协作的医生组的中位数为76%,仅比人类医生单独诊断组(74%)高出2个百分点,这一差异也被认为不具有统计学意义。关于准确率,两名未参与实验的内科专科医生依据事先设定的标准进行独立评估,他们在不知晓每项诊断由谁完成的前提下进行打分。
此次报告的评估结果之所以具有意义,在于它显示出AI在医疗一线的地位正在发生变化。AI已经在机器人手术、医学数据分析以及基于AI的癌症筛查解决方案等领域得到广泛应用,但此前主要停留在辅助医生判断的层面。
被视为全球最具公信力的人工智能白皮书之一的《AI指数》此次给出结论称,像GPT-4这样的生成式AI模型在诊断方面优于医生,由此也出现了“在医院中普遍见到AI医生的日子已不远”的预测。
报告指出:“这一实验结果表明,GPT-4在诊断方面整体性能最高且具备一致性”,“即便在AI与医生协作的情况下,诊断成绩也会因医生个人的判断方式和使用能力不同而产生差异。”报告还表示:“在癌症发现、重症患者识别等领域,也有近期研究显示AI的表现优于医护人员”,“AI的应用范围正在从简单诊断扩展到更加复杂的临床决策领域。”

与此同时,在衡量GPT-4临床知识水平的代表性基准——“MedQA”测试中,GPT-4去年取得了96.0%的准确率。与2022年的67.6%相比,足足提升了28.4个百分点。MedQA是基于美国医师国家考试水平的医学试题构成的测试,用于评估人工智能的临床知识水平。
报告补充称:“有研究结果显示,AI与医生的协作可以产生最优结果,因此这一领域将成为今后重要的研究课题”,但“AI系统本身内含风险,例如生成与事实不符信息的‘幻觉’问题以及难以预测的错误等,围绕其可靠性和安全性的担忧仍然存在,因此有必要在政策层面提前制定应对措施,将这些风险因素纳入考量。”
随着人工智能在医疗领域的诊断性能快速提升,韩国国内关于医疗专业职业未来的讨论也在持续。韩国银行今年2月发布的报告《AI与韩国经济》指出:“人工智能并非只是简单替代人类劳动,在医疗等高风险领域,更有可能发挥补充人类判断的作用”,“尤其是人工智能的发展,蕴含着提升医疗服务质量的潜力。”