[뉴스속 용어]'거대언어모델(LLM)' 개발에 속도내는 엔씨소프트

LLaMa·하이퍼클로바X·코GPT 등 공개돼
'바르코(2.0)',영어·일본어·중국어도 구사

엔씨소프트가 지난해 출범한 인공지능(AI) '거대언어모델(LLM)' 바르코(VARCO) 개발에 조용히 속도를 내고 있다.


'거대언어모델(Large language model·LLM)'은 대용량 인간 언어를 이해하고 생성할 수 있도록 훈련된 인공지능(AI)을 통틀어 일컫는 말이다. 사용자가 원하는 방식으로 자료가 처리되도록 하기 위해 명령어를 입력할 때 추가하거나 변경하는 수치 정보인 '파라미터(Parameter)'를 수없이 많이 보유한 인공 신경망으로 구성되는 언어모델(LM)을 더욱 확장한 개념이 LLM이다.

엔씨소프트 판교 R&D 센터 사옥 전경. [사진=엔씨소프트]

엔씨소프트 판교 R&D 센터 사옥 전경. [사진=엔씨소프트]

원본보기 아이콘

LLM은 수많은 양의 텍스트를 통해 훈련을 거듭한 뒤 맥락을 파악해 적절한 답을 만들어낸다. 한 문장이 주어지면, 한 단어가 끝나고 다음 단어를 예측할 때 단어들 사이의 유사성이나 문맥 형성 등을 파악해 더욱 정확한 의미를 생성한다.

주어진 언어 범위 내에서 정해진 패턴이나 구조, 관계를 학습하는 기존 언어모델과 달리 대규모 언어 데이터를 학습해 문장 구조 문법, 의미 등을 파악하고 자연스러운 대화 형태로 상호작용이 가능하다. 콘텐츠 패턴을 학습해 추론 결과로 새로운 콘텐츠를 만드는 생성형 AI의 핵심 기술로 꼽히기도 한다.


오픈AI에서 개발한 '챗GPT'와 메타의 'LLaMa' 등이 대표적 사례다. 한국도 네이버가 한국어에 최적화된 '하이퍼클로바X'를 선보였고, 카카오 자회사 카카오브레인도 한국어 특화 초거대 AI 모델 '코GPT'를, LG AI연구원은 자체 초거대 AI '엑사원 2.0'을 공개했다.


28일 게임업계에 따르면 엔씨소프트는 지난달 말 아마존웹서비스(AWS) 마켓플레이스와 깃허브(Github) 공식 페이지를 통해 바르코 LLM 2.0 모델을 공개했다.

바르코 LLM 2.0은 엔씨소프트가 지난해 8월 공개한 바르코 LLM의 차세대 버전이다. 70억 매개변수(파라미터) 규모의 스몰 모델과 130억 파라미터 크기의 베이스 모델로 나뉜다. 바르코 2.0은 기존에 바르코가 지원하던 한국어·영어뿐 아니라 일본어와 중국어까지 능숙하게 구사할 수 있는 것이 특징이다.


학습 데이터 양도 늘렸다. 바르코 LLM 2.0은 1.0 모델보다 사전 학습에 4.5배, 튜닝에 10배 많은 학습 데이터를 사용해 성능을 높였다. 또 AI 윤리를 고려한 자체 구축 데이터셋도 추가로 학습해 이용자 친화적인 답변을 내놓는다.


엔씨소프트는 향후 바르코 LLM 2.0을 기반으로 한 챗봇 서비스용 언어 모델 '다이얼로그', 실제 게임 기획 문서 작성에 사용할 수 있는 '스토리' 모델을 공개할 방침이다. 또 텍스트뿐 아니라 그림, 문서 등을 이해할 수 있는 멀티모달 LLM인 바르코 MLLM 1.0도 하반기 공개할 계획이다.

[뉴스속 용어]'거대언어모델(LLM)' 개발에 속도내는 엔씨소프트 원본보기 아이콘




김종화 기자 justin@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>