한국어 데이터 모아 AI 독립하자…업스테이지, '1T 클럽' 발족
AD
원본보기 아이콘

업스테이지가 한국어 데이터 부족 문제 해결에 나선다. 이를 통해 오픈AI의 챗GPT 등 해외 기업이 독점하고 있는 거대언어모델(LLM) 시장에서 독립에 나선다는 계획이다.


업스테이지는 ‘1T 클럽’을 발족한다고 14일 밝혔다. ‘1T 클럽’은 ‘1 Trillion(조) 토큰 클럽’을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터에 기여하는 파트너사들로 구성된다.

'1T 클럽'은 한국어 데이터 부족 문제를 해결하고, 고성능 LLM 개발을 통해 한국의 LLM 독립을 목표로 한다. LLM 개발은 방대한 언어 데이터가 기반이 돼야 한다. 한국어 데이터는 국내 LLM 발전에 필수이지만, 저작권 문제 등으로 영어 데이터와 비교해 턱없이 부족하다. 외국어 중심으로 학습된 해외 기업의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업이 활용하기 어렵다.


실제로 한국어 데이터 학습량의 경우 GPT-3 기준으로 약 1억개로 비중은 0.01697%, 전체 언어 중 28위에 불과하다. 하지만 영어는 45조 개의 토큰으로 학습, 데이터 양에 비례하는 LLM의 언어별 성능의 격차를 만든다.

업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 협의를 진행중이다. 다양한 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM의 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획이다.


업스테이지는 ‘1T 클럽’을 통해 한국의 AI 능력을 더욱 향상시키고, 글로벌 AI 산업에서 한국이 선두 주자의 위치를 확립하기 위해 최선을 다할 계획이다. 특히 크롤링을 통한 AI 학습으로 인해 저작권 이슈 등 부작용이 발생하는 문제 해결은 물론, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영될 계획이다.

AD

김성훈 업스테이지의 대표는 "LLM은 오늘날 생성형 인공지능의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 '1T 클럽’을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.


이승진 기자 promotion2@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 보면 좋은 기사

새로보기

내 안의 인사이트 깨우기

취향저격 맞춤뉴스

많이 본 뉴스

당신을 위한 추천 콘텐츠