양자화로 AI 압축…손안의 AI기기 핵심도 ‘SW’

최유리 기자

입력 2024.01.08 08:07

수정 2024.01.08 13:56

펼치기/접기

01분 15초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

CES 2024 화두는 '온디바이스 AI'
작지만 강한 AI·경량화 기술 핵심

‘온디바이스 인공지능(AI)’이 전 세계를 휩쓸고 있다. 스마트폰부터 자동차까지 다양한 기기에 AI 기술을 탑재해 기기가 자체적으로 정보를 수집·연산하는 능력을 갖추는 게 핵심이다. 이를 위해선 AI를 경량화하는 기술이 필요한데, 소프트웨어(SW)가 그 역할을 담당한다. 지난해 AI 모델이 두뇌 크기로 자체 성능을 겨뤘다면 올해는 노트북부터 청소기, 냉장고, 스마트카 등에 AI를 탑재하는 게 거대한 흐름이 됐다.

온디바이스 AI는 서버나 클라우드를 거치지 않고 기기가 자체적으로 AI를 구동하는 것이다. 이용자 입장에선 개인 정보가 외부로 나가지 않아 보안 측면에 이점이 있다. 이 때문에 개인 정보를 활용한 맞춤형 서비스가 가능해진다. 공급자 입장에선 서버 운영 비용을 들이지 않고도 AI 서비스를 제공할 수 있다.

온디바이스 AI에 필요한 하드웨어(HW)가 고성능 반도체라면 SW는 무게를 가볍게 만드는 역할을 한다. 스마트폰이라는 제한된 성능·공간에서 AI를 구동하려면 모델 자체가 작거나, 큰 모델을 가볍게 만들 필요가 있기 때문이다.

모델 자체를 작게 만든 것은 경량거대언어모델(sLLM)이다. LLM이 큰 두뇌로 범용 영역에서 고성능을 낸다면 sLLM은 상대적으로 사이즈가 작은 AI 모델이다. 특정 영역에서 성능이 좋고 비용 효율성이 높은 게 특징이다. 보통 수천억 개 파라미터(정보를 학습하고 기억하는 역할)를 LLM, 수십억~수백억 개 파라미터를 sLLM으로 구분한다.

작은 모델로 좋은 성능을 내려면 최적화 기술이 있어야 한다. AI 스타트업 업스테이지는 자체 LLM ‘솔라’를 구현할 때 작은 모델을 쪼개고 합치면서 최적의 성능을 내는 비율을 찾아냈다. 그 결과 107억개 파라미터에 불과한 크기로 오픈소스 AI 모델의 글로벌 경연장인 허깅페이스 리더보드에서 1위를 차지했다. 오픈AI가 개발한 GPT-4(파라미터 1조개)의 100분의 1수준으로 고성능을 내는 것이다. AI 기술 기업 코난테크놀로지는 모델 크기를 줄이는 대신 학습량을 늘리거나 양질의 데이터만 학습시켰다. 자체 모델 ‘코난LLM’에 메타가 개발한 ‘라마2’보다 270배 많은 한국어를 투입했다.

큰 모델을 가볍게 만드는 경량화 기술도 주목받고 있다. AI 스타트업 스퀴즈비츠는 양자화로 AI를 압축하는 기술을 개발했다. 32자릿수 연산을 더 작은 단위의 연산으로 간단하게 표현해 빠르게 계산하면서도 똑같은 성능을 내는 원리다. AI 모델 최적화 기술 기업 노타는 AI 모델의 연산량을 줄여 경량화한다. 상대적으로 결과물에 영향을 덜 미치는 연산을 건너뛰게 하는 방식이다. AI가 알아서 특정 기능을 수행하는데 효율적인 모델을 찾도록 하는 오토 머신러닝(ML) 기술도 있다.