对 GPT、Gemini 等 5种模型的比较研究
分析与膝关节置换术相关的43个问题
有研究结果显示,人工智能(AI)聊天机器人提供的医学信息有望作为辅助患者教育和门诊咨询的工具加以利用。
翰林大学东滩圣心医院骨科教授 Song Siyoung 研究团队发表研究结果称,他们比较分析了5种提供膝关节置换术相关信息的人工智能聊天机器人的答复准确度。
该研究论文题为《GPT-3.5、GPT-4、GPT-4 Omni、Gemini Advanced、Gemini 1.5 对膝关节置换术相关问题答复的比较分析》,刊登于骨科与运动医学领域的科学引文索引扩展版(SCIE)学术期刊《骨科与运动医学杂志》1月刊。
研究团队基于谷歌搜索趋势及骨科专科医生的意见,选取了43个患者在手术前后经常提出的问题。问题分为6大领域:△手术概述与过程 △手术适应证与结果 △不良反应及并发症 △疼痛与恢复过程 △术后活动 △手术替代方案及变型术式等。
研究团队将上述每个问题以同样方式分别输入给 GPT-3.5、GPT-4、GPT-4 Omni、Gemini Advanced、Gemini 1.5 等5个基于大型语言模型(Large Language Model)的聊天机器人,由两名专门从事膝关节置换术的骨科专科医生对其答复的准确度和与问题的适配性进行评估。评估采用5分李克特量表,评估者在盲评条件下进行,不知晓具体聊天机器人的种类。
分析结果显示,GPT-3.5、GPT-4、GPT-4 Omni、Gemini 1.5 在全部问题上的平均得分准确度均在4.8分以上,且问题相关性被评为100%。相反,Gemini Advanced 的平均准确度为4.07分,相关性为83.7%,评分低于其他聊天机器人。
尤其是在手术适应证和手术结果,以及膝关节置换术的替代方案与变型术式相关问题上,各聊天机器人之间的性能差异尤为明显。GPT-3.5、GPT-4、GPT-4 Omni、Gemini 1.5 在该领域大多获得接近5分的评分,而 Gemini Advanced 的评价则在统计学上显著偏低。
研究团队表示,有部分聊天机器人在面对某些问题时,倾向于给出“请咨询专科医生”之类的提示。这一现象可能源于其为避免提供错误信息而设置的安全机制,但在将其作为患者教育工具使用时,也可能限制所提供信息的具体程度。
Song 教授表示:“我们确认了最新的人工智能聊天机器人能够相当准确地提供与膝关节置换术相关的医学信息。但人工智能的答复应仅用于辅助患者教育,手术决策必须通过与医务人员的直接咨询来作出。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。