본문 바로가기
Dim영역

'마의 장벽' GPT-4 깰까… 세계 1등 4번 찍은 K-언어모델

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

'LLM 수능' 허깅페이스서 3600개 모델 경쟁
모레·업스테이지 등 韓 기업 잇따라 1위
한국어 특화 LLM 평가 플랫폼도 나와

'마의 장벽' GPT-4 깰까… 세계 1등 4번 찍은 K-언어모델
AD
원본보기 아이콘

국내 인공지능(AI) 기업들이 ‘거대언어모델(LLM)의 수능’으로 불리는 허깅페이스 ‘오픈 LLM 리더보드’에서 잇따라 1위를 차지했다. 국내 기업이 해외 빅테크(대형 정보기술 기업)에 견줄 만한 기술력을 갖췄다는 평가다. 현재 가장 우수한 모델인 오픈AI의 GPT-4 수준에 도달할 수 있을지도 관심이다.


24일 기준 허깅페이스 오픈 LLM 리더보드를 보면 국내 AI 스타트업 모레는 자체 LLM ‘MoMo-72B’로 1위(78.55점)를 차지했다. 지난 18일 이보다 파라미터(매개변수)가 작은 ‘MoMo-70B’로 1위(77.29점)에 올랐다가 새 모델로 점수를 경신했다. 정보를 학습하고 기억하는 역할을 하는 매개변수는 크기가 클수록 성능이 좋다. 현재 모레가 개발한 LLM은 허깅페이스 1, 3, 10위를 차지했다.

'마의 장벽' GPT-4 깰까… 세계 1등 4번 찍은 K-언어모델 원본보기 아이콘

미국 허깅페이스가 운영하는 오픈 LLM 리더보드에는 개방형(오픈소스) LLM 3600개 이상이 등록돼 있다. 모델을 등록하면 수학, 과학, 상식, 추론 등 여섯 가지 과목에서 평가가 이뤄진다. LLM이 과목별로 수천개 문제를 풀면 평균 점수를 낸 후 순위를 집계한다. AI 스타트업 업스테이지 관계자는 "AI 성능을 평가하는 테스트를 총집결해놨기 때문에 LLM 기술을 증명하는 바로미터로 본다"며 "모델의 우수성을 알리고 기술을 공유하기 위해 허깅페이스를 활용한다"고 말했다.


국내 기업이 허깅페이스 LLM 리더보드 1위를 거머쥔 것은 이번이 네 번째다. 업스테이지가 지난해 8월(72.3점)과 12월(74.2점) 두 차례 1위에 올랐다. AI 토익학습 앱으로 알려진 뤼이드는 메타의 라마2를 파인튜닝(미세조정)한 모델로 지난해 10월 1위(74.07점)를 차지했다. 올 초에는 카카오뱅크 가 업스테이지 모델인 ‘솔라’를 기반으로 개발한 ‘카본빌런’으로 1위(74.52점)를 기록했다.


국내 기업도 빅테크와 얼마든지 경쟁할 수 있는 기술력을 갖췄다는 분석이다. 점수로만 보면 메타의 라마2(67.87점)나 오픈AI의 GPT-3.5(71.07점)를 뛰어넘었다. 최근 20억달러(약 2조6000억원)의 기업가치로 유니콘에 오른 프랑스 스타트업 미스트랄 AI의 최신 모델(72.62점)보다 앞섰다. 작은 모델로 뛰어난 성능을 내는 효율성도 높다. 지난해 12월 1위를 기록한 업스테이지의 솔라는 매개변수가 107억개다. 당시 2위였던 알리바바 큐원(720억개)의 6분의 1 규모로 성능을 앞섰다.

국내 기업의 기술력이 ‘마의 장벽’으로 여겨지는 80점대를 돌파할 수 있을지도 관심사다. 오픈AI의 최신 모델 GPT-4는 84점대로 알려져 있다. 비공개 모델이라 GPT-4에 기반한 챗GPT에 허깅페이스 평가 항목을 물어보는 식으로 추정한 점수다. 업계에선 매개변수를 키우면 80점대 돌파를 앞당길 수 있지만 비용 효율성이 높은 모델을 찾는 게 우선순위라고 본다. 모델이 크면 구동에도 큰 비용이 들어 활용도가 떨어지기 때문이다.


임정환 모레 AI 그룹장은 "우수한 AI로 평가받으려면 AI 기술과 여기에 들어가는 인프라를 최적화하는 소프트웨어(SW) 엔지니어링 기술이 모두 필요하다"며 "두 기술을 모두 갖춘 곳이 많지 않아 최근에는 리더보드 점수(LLM 시험 점수) 상승 폭이 많이 꺾였다"고 설명했다.


몇몇 한국 기업이 선전하고 있지만 리더보드에 올라온 LLM 대다수는 미국, 중국에서 만든 것이다. 기술·자본을 갖춘 국가 모델과 영어 시험 문제로 경쟁하다 보니 한국어 능력은 제대로 평가받을 수 없다. 이를 보완하기 위해 한국어에 특화한 모델을 평가하는 플랫폼도 나왔다. 업스테이지와 한국지능정보사회진흥원(NIA)은 지난해 9월 ‘오픈 Ko-LLM 리더보드’를 내놨다. 허깅페이스 평가모델을 기반으로 한국어 특성과 문화를 반영했다. 현재 1000개 가까운 모델이 올라와 경쟁하고 있다.





최유리 기자 yrchoi@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • 이수만과 상하이 동행한 미소년들…데뷔 앞둔 중국 연습생들? '허그'만 하는 행사인데 '목 껴안고 입맞춤'…결국 성추행으로 고발 음료수 캔 따니 벌건 '삼겹살'이 나왔다…출시되자 난리 난 제품

    #국내이슈

  • 관람객 떨어뜨린 카메라 '우물 우물'…푸바오 아찔한 상황에 팬들 '분노' [영상] "단순 음악 아이콘 아니다" 유럽도 스위프트노믹스…가는 곳마다 숙박료 2배 '들썩' 이곳이 지옥이다…초대형 감옥에 수감된 문신남 2000명

    #해외이슈

  • "여가수 콘서트에 지진은 농담이겠지"…전문기관 "진짜입니다" [포토] '아시아경제 창간 36주년을 맞아 AI에게 질문하다' [포토] 의사 집단 휴진 계획 철회 촉구하는 병원노조

    #포토PICK

  • 벤츠 신형 C200 아방가르드·AMG 출시 속도내는 中 저고도경제 개발…베이징서도 플라잉카 날았다 탄소 배출 없는 현대 수소트럭, 1000만㎞ 달렸다

    #CAR라이프

  • [뉴스속 용어]대통령실이 쏘아올린 공 '유산취득세·자본이득세' [뉴스속 용어]"이혼한 배우자 연금 나눠주세요", 분할연금제도 [뉴스속 그곳]세계문화유산 등재 노리는 日 '사도광산'

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼