GPT·Gemini 등 5종 비교 연구
무릎 인공관절수술 질문 43개 분석

인공지능(AI) 챗봇이 제공하는 의학 정보가 환자 교육과 진료 상담을 보조하는 도구로 활용될 수 있다는 연구 결과가 나왔다.

송시영 한림대동탄성심병원 정형외과 교수. 한림대동탄성심병원

송시영 한림대동탄성심병원 정형외과 교수. 한림대동탄성심병원

AD
원본보기 아이콘

한림대동탄성심병원 정형외과 송시영 교수 연구팀은 무릎 인공관절수술 관련 정보를 제공하는 AI 챗봇 5종의 답변 정확도를 비교 분석한 연구 결과를 발표했다.


연구 논문은 'GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5의 무릎 인공관절수술 관련 질문 답변 비교 분석'이라는 제목으로 정형외과·스포츠의학 분야 SCIE 학술지 '정형외과 스포츠 의학 학술지' 1월호에 게재됐다.

연구팀은 구글 검색 경향과 정형외과 전문의 자문을 바탕으로 환자들이 수술 전후 자주 묻는 질문 43개를 선정했다. 질문은 △수술 개요와 과정 △수술 적응증과 결과 △부작용 및 합병증 △통증과 회복 과정 △수술 후 활동 △수술 대안 및 변형 술기 등 6개 영역으로 구성됐다.


각 질문을 GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5 등 5개 대형언어모델(LLM) 기반 챗봇에 동일하게 제시한 뒤 무릎 인공관절수술을 전문으로 하는 정형외과 전문의 2명이 답변의 정확도와 질문 적합성을 평가했다. 평가는 5점 리커트 척도를 사용했고 평가자는 챗봇 종류를 알 수 없도록 블라인드 방식으로 진행됐다.

분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 전체 질문에서 평균 4.8점 이상의 높은 정확도를 보였고 질문 관련성도 100%로 평가됐다. 반면 Gemini Advanced는 평균 정확도 4.07점, 관련성 83.7%로 다른 챗봇보다 낮은 점수를 기록했다.


특히 수술 적응증과 수술 결과, 인공관절수술의 대안 및 변형 술기 관련 질문에서 챗봇 간 성능 차이가 두드러졌다. GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 이 영역에서 대부분 5점에 가까운 점수를 받은 반면 Gemini Advanced는 통계적으로 유의하게 낮은 평가를 받았다.


연구팀은 일부 챗봇이 특정 질문에 대해 "전문의와 상담하라"는 안내를 제시한 경향이 나타났다고 설명했다. 이는 잘못된 정보를 제공하지 않기 위한 안전 장치의 영향일 가능성이 있지만 환자 교육 도구로 활용할 때 정보의 구체성이 제한될 수 있다고 분석했다.

AD

송 교수는 "최신 AI 챗봇이 무릎 인공관절수술 관련 의학 정보를 상당히 정확하게 제공할 수 있음을 확인했다"며 "다만 AI 답변은 환자 교육을 보조하는 수준에서 활용하고 수술 결정은 반드시 의료진과 직접 상담을 통해 이뤄져야 한다"고 말했다.


박정연 기자 jy@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 보면 좋은 기사

새로보기

내 안의 인사이트 깨우기

취향저격 맞춤뉴스

많이 본 뉴스

당신을 위한 추천 콘텐츠

놓칠 수 없는 이슈