본문 바로가기
Dim영역

[테크토크]업그레이드한 챗GPT, 오히려 멍청해졌다?

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

"답변 질 낮아졌다" 업계서 불만 나와
3개월 전보다 수학, 코딩 응답 질 저하
AI 모델 구조 변환했을 가능성 제기돼

올해 초 생성형 인공지능(AI) 열풍을 불러온 오픈AI의 '챗GPT'가 대대적인 업그레이드 후 오히려 부정확한 답변을 내놓는 빈도가 높아졌다는 의혹을 받고 있습니다. 아직 명확히 규명되지 않은 의혹이지만 학계마저 술렁이고 있는 터라 파장은 매우 클 것으로 보입니다.


챗GPT, 업그레이드 후 멍청해졌다?
챗GPT [이미지출처=연합뉴스]

챗GPT [이미지출처=연합뉴스]

AD
원본보기 아이콘

챗GPT는 오픈AI의 대형 언어 생성 모델(LLM) 'GPT' 시리즈를 기반으로 개발됐습니다. 현재 오픈AI 홈페이지에서 무료로 이용할 수 있는 챗GPT는 'GPT-3.5'를 사용했으며, 유료 구독 후 이용할 수 있는 챗GPT 프리미엄 버전의 경우 이보다 훨씬 개량된 'GPT-4.0'을 사용합니다.

하지만 GPT-4.0 도입 후 챗GPT가 오히려 '멍청해졌다'는 주장이 지속해서 제기되고 있습니다. 지난 5월 미국 메타버스 플랫폼 '로블록스' 개발자인 피터 양은 트위터에 "업그레이드 후 챗GPT의 응답 속도는 더 빨라졌지만, 대신 답변의 질은 더 낮아졌다"라고 지적하기도 했습니다.


앞서 오픈AI 측은 이런 주장에 대해 "오히려 챗GPT는 더 똑똑해졌다"라며 정면으로 반박했습니다. 다만 "이용자 수가 폭발적으로 급증하다 보니 이전에는 보이지 않았던 미흡한 점이 더 자주 발견되고 있을 뿐"이라고 설명했습니다.


"수학 풀이, 코드 생성 등 기능 떨어져" 논문도 나와
미국 유명 플랫폼 기업 '로블록스'의 제품 책임자 피터 양이 챗GPT의 성능 저하 관련 논문 내용을 소개했다. [이미지출처=트위터]

미국 유명 플랫폼 기업 '로블록스'의 제품 책임자 피터 양이 챗GPT의 성능 저하 관련 논문 내용을 소개했다. [이미지출처=트위터]

원본보기 아이콘

그러나 논란은 현재진행형입니다. 심지어 미 스탠퍼드대 컴퓨터 과학 연구진은 최근 챗GPT의 응답 자료를 분석해 실제 성능이 얼마나 저하됐는지 가늠하는 연구 논문을 내놓기도 했습니다.

이 논문에서 연구진은 "수학 문제 풀이, 코드 생성, 시각적 추론 등 4개 영역에서 3월 버전 대비 전반적으로 기능이 떨어졌다"라고 판단했습니다. 다만 해당 논문 또한 아직 피어 리뷰(peer reivew·동료 전문가에게 평가받아 논문을 검증하는 과정)를 거치지 않아 액면 그대로 받아들이기엔 다소 무리가 있습니다.


AI의 '지능'을 판가름하는 것은 사실 매우 힘든 일입니다. 왜냐하면 아직 AI 모델의 실제 성능을 가늠할 수 있는 지표가 없기 때문입니다. 현재 AI 업계에선 다양한 질문과 과제로 이뤄진 데이터를 구성해 'AI 성능 벤치마크 테스트'를 개발하려는 시도가 늘고 있지만, 아직 표준으로 삼을 만한 테스트는 나오지 않았습니다.


하지만 '챗GPT의 답변 퀄리티가 과거와 비교해 떨어졌다'는 주장을 그저 허위로 치부하는 것은 힘들어 보입니다. 실제 개발자를 포함한 여러 유저가 불만 목소리를 내고 있고, 챗GPT의 이용률도 지난달부터 전월 대비 9.7% 감소하는 등 하향 곡선을 그리고 있기 때문입니다.


오픈AI, AI 구조 바꿨을 수도
오픈AI가 챗GPT를 이루는 AI 모델의 구조를 급진적으로 바꿨을 수 있다는 추측이 나온다.

오픈AI가 챗GPT를 이루는 AI 모델의 구조를 급진적으로 바꿨을 수 있다는 추측이 나온다.

원본보기 아이콘

만일 챗GPT가 3개월 전보다 더 멍청해졌다면, 어째서일까요. 그 이유도 난제입니다. 기계 학습 기술은 빠르게 발전하고 있지만, 아직 학계는 컴퓨터 지능이 '어떻게' 통찰력을 발휘하는지는 알지 못합니다. 챗GPT의 근간을 이루는 딥러닝 기술은 여전히 많은 부분이 블랙박스로 가려져 있어, 정확히 어떤 부분이 성능 저하의 요인이 됐는지 파악하기 힘듭니다.


일부 전문가는 오픈AI가 챗GPT를 이루는 모델을 급진적으로 변화시켰을 수 있다고 추측합니다. 즉, GPT-3.5까지 챗GPT는 하나의 거대한 언어 모델을 기반으로 이뤄졌습니다.


그러나 GPT-4.0부터는 특정 전문 지식만 집중적으로 학습시킨 작은 언어 모델들을 여러 개 모아 하나의 AI처럼 작동시켰을 수 있다는 겁니다. 이런 접근법을 두고 '전문가 혼합(Mixture of experts·MOE)'이라고 합니다.


챗GPT가 거대 모델에서 MOE로 전환됐다면, 응답 속도가 과거에 비해 빨라진 것도 설명됩니다. 다만 한 질문에 답변하는 모델의 크기가 작아지면서 실질적인 추론 능력이 저하됐을 가능성이 있습니다.


새 모델 때문에 품질 저하됐을까
오픈AI는 자사 AI 제품의 모델과 관련된 정보들을 대부분 기밀로 취급한다. [이미지출처=연합뉴스]

오픈AI는 자사 AI 제품의 모델과 관련된 정보들을 대부분 기밀로 취급한다. [이미지출처=연합뉴스]

원본보기 아이콘

그러나 이런 설명들은 어디까지나 학계 일각에서 거론되는 추측에 불과합니다. 이는 오픈AI가 챗GPT의 실제 AI 모델과 관련된 거의 모든 사항을 공개하지 않기 때문에 벌어지는 혼란이기도 합니다.


미국 비영리 AI 연구기관 '알렌인공지능연구소' 최고경영자(CEO) 오렌 에치오니는 미 매체 '인사이더'에 챗GPT가 MOE 모델로 전환됐을 가능성에 대해 "정확도 높은 추측"이라면서도 "확신은 할 수 없다"라고 했습니다.


에치오니는 MOE 접근 방식에 대해 "응답 속도를 올리고, 더 저렴하게 (AI를) 구동하게 하는 방식"이라면서도 성능을 저하하는 것은 아니라고 강조했습니다. 다만 오픈AI가 챗GPT를 MOE로 바꾸는 과정에서 일부 품질을 희생했을 가능성은 있다고 덧붙였습니다.


챗GPT의 성능 저하 논란은 AI 비즈니스에 새로운 쟁점으로 다가오기도 합니다. 현재 오픈AI는 기업, 혹은 개인에 구독료를 받고 챗GPT 프리미엄 서비스를 제공합니다. 혹은 유료로 API(애플리케이션 프로그램 인터페이스) 사용을 허가하기도 합니다.


하지만 AI의 성능이 기업의 운영 역량에 따라 큰 폭으로 저하할 수 있다면, 소비자 입장에서는 큰 손해가 될 겁니다. AI 제품의 성능을 보장할 수 있도록 투명한 정보공개가 요구될 수도 있는 셈입니다.





임주형 기자 skepped@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • [포토] 오동운 후보 인사청문회... 수사·증여 논란 등 쟁점 오늘 오동운 공수처장 후보 인사청문회…'아빠·남편 찬스' '변호전력' 공격받을 듯 우원식, 22대 전반기 국회의장 후보 당선…추미애 탈락 이변

    #국내이슈

  • 골반 붙은 채 태어난 샴쌍둥이…"3년 만에 앉고 조금씩 설 수도" "학대와 성희롱 있었다"…왕관반납 미인대회 우승자 어머니 폭로 "1000엔 짜리 라멘 누가 먹겠냐"…'사중고' 버티는 일본 라멘집

    #해외이슈

  • '시스루 옷 입고 공식석상' 김주애 패션…"北여성들 충격받을 것" 이창수 신임 서울중앙지검장, 김 여사 수사 "법과 원칙 따라 제대로 진행" 햄버거에 비닐장갑…프랜차이즈 업체, 증거 회수한 뒤 ‘모르쇠’

    #포토PICK

  • 車수출, 절반이 미국행인데…韓 적자탈출 타깃될까 [르포]AWS 손잡은 현대차, 자율주행 시뮬레이션도 클라우드로 "역대 가장 강한 S클래스"…AMG S63E 퍼포먼스 국내 출시

    #CAR라이프

  • [뉴스속 용어]한-캄보디아 정상 '전략적 동반자 관계' 수립 세계랭킹 2위 매킬로이 "결혼 생활 파탄이 났다" [뉴스속 용어]머스크, 엑스 검열에 대해 '체리 피킹'

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼