[테크토크]업그레이드한 챗GPT, 오히려 멍청해졌다?

임주형 기자

입력 2023.07.30 08:00

수정 2023.12.20 10:39

펼치기/접기

02분 08초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

"답변 질 낮아졌다" 업계서 불만 나와
3개월 전보다 수학, 코딩 응답 질 저하
AI 모델 구조 변환했을 가능성 제기돼

올해 초 생성형 인공지능(AI) 열풍을 불러온 오픈AI의 '챗GPT'가 대대적인 업그레이드 후 오히려 부정확한 답변을 내놓는 빈도가 높아졌다는 의혹을 받고 있습니다. 아직 명확히 규명되지 않은 의혹이지만 학계마저 술렁이고 있는 터라 파장은 매우 클 것으로 보입니다.

챗GPT, 업그레이드 후 멍청해졌다?

챗GPT [이미지출처=연합뉴스]

챗GPT는 오픈AI의 대형 언어 생성 모델(LLM) 'GPT' 시리즈를 기반으로 개발됐습니다. 현재 오픈AI 홈페이지에서 무료로 이용할 수 있는 챗GPT는 'GPT-3.5'를 사용했으며, 유료 구독 후 이용할 수 있는 챗GPT 프리미엄 버전의 경우 이보다 훨씬 개량된 'GPT-4.0'을 사용합니다.

하지만 GPT-4.0 도입 후 챗GPT가 오히려 '멍청해졌다'는 주장이 지속해서 제기되고 있습니다. 지난 5월 미국 메타버스 플랫폼 '로블록스' 개발자인 피터 양은 트위터에 "업그레이드 후 챗GPT의 응답 속도는 더 빨라졌지만, 대신 답변의 질은 더 낮아졌다"라고 지적하기도 했습니다.

앞서 오픈AI 측은 이런 주장에 대해 "오히려 챗GPT는 더 똑똑해졌다"라며 정면으로 반박했습니다. 다만 "이용자 수가 폭발적으로 급증하다 보니 이전에는 보이지 않았던 미흡한 점이 더 자주 발견되고 있을 뿐"이라고 설명했습니다.

"수학 풀이, 코드 생성 등 기능 떨어져" 논문도 나와

미국 유명 플랫폼 기업 '로블록스'의 제품 책임자 피터 양이 챗GPT의 성능 저하 관련 논문 내용을 소개했다. [이미지출처=트위터]

그러나 논란은 현재진행형입니다. 심지어 미 스탠퍼드대 컴퓨터 과학 연구진은 최근 챗GPT의 응답 자료를 분석해 실제 성능이 얼마나 저하됐는지 가늠하는 연구 논문을 내놓기도 했습니다.

이 논문에서 연구진은 "수학 문제 풀이, 코드 생성, 시각적 추론 등 4개 영역에서 3월 버전 대비 전반적으로 기능이 떨어졌다"라고 판단했습니다. 다만 해당 논문 또한 아직 피어 리뷰(peer reivew·동료 전문가에게 평가받아 논문을 검증하는 과정)를 거치지 않아 액면 그대로 받아들이기엔 다소 무리가 있습니다.

AI의 '지능'을 판가름하는 것은 사실 매우 힘든 일입니다. 왜냐하면 아직 AI 모델의 실제 성능을 가늠할 수 있는 지표가 없기 때문입니다. 현재 AI 업계에선 다양한 질문과 과제로 이뤄진 데이터를 구성해 'AI 성능 벤치마크 테스트'를 개발하려는 시도가 늘고 있지만, 아직 표준으로 삼을 만한 테스트는 나오지 않았습니다.

하지만 '챗GPT의 답변 퀄리티가 과거와 비교해 떨어졌다'는 주장을 그저 허위로 치부하는 것은 힘들어 보입니다. 실제 개발자를 포함한 여러 유저가 불만 목소리를 내고 있고, 챗GPT의 이용률도 지난달부터 전월 대비 9.7% 감소하는 등 하향 곡선을 그리고 있기 때문입니다.

오픈AI, AI 구조 바꿨을 수도

오픈AI가 챗GPT를 이루는 AI 모델의 구조를 급진적으로 바꿨을 수 있다는 추측이 나온다.

만일 챗GPT가 3개월 전보다 더 멍청해졌다면, 어째서일까요. 그 이유도 난제입니다. 기계 학습 기술은 빠르게 발전하고 있지만, 아직 학계는 컴퓨터 지능이 '어떻게' 통찰력을 발휘하는지는 알지 못합니다. 챗GPT의 근간을 이루는 딥러닝 기술은 여전히 많은 부분이 블랙박스로 가려져 있어, 정확히 어떤 부분이 성능 저하의 요인이 됐는지 파악하기 힘듭니다.

일부 전문가는 오픈AI가 챗GPT를 이루는 모델을 급진적으로 변화시켰을 수 있다고 추측합니다. 즉, GPT-3.5까지 챗GPT는 하나의 거대한 언어 모델을 기반으로 이뤄졌습니다.

그러나 GPT-4.0부터는 특정 전문 지식만 집중적으로 학습시킨 작은 언어 모델들을 여러 개 모아 하나의 AI처럼 작동시켰을 수 있다는 겁니다. 이런 접근법을 두고 '전문가 혼합(Mixture of experts·MOE)'이라고 합니다.

챗GPT가 거대 모델에서 MOE로 전환됐다면, 응답 속도가 과거에 비해 빨라진 것도 설명됩니다. 다만 한 질문에 답변하는 모델의 크기가 작아지면서 실질적인 추론 능력이 저하됐을 가능성이 있습니다.