난이도 최강 한국어…AI챗봇 경쟁력도 결국 '한국어 능력'

임주형 기자

입력 2023.02.13 05:30

01분 55초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

네이버 AI 학습엔 '국어학 지식' 필수
AI 성능, 순수학문 우위가 좌우할 수도

오픈AI의 인공지능(AI) 챗봇 '챗GPT(ChatGPT)'. 국내 IT 대기업 네이버가 개발한 '하이퍼클로바'. 두 거대 기계 지능의 성능을 정확히 1:1로 놓고 비교할 수는 없지만, 네이버는 하이퍼클로바의 성능이 적어도 '한국어'에서만큼은 최고라고 자처한 바 있다.

네이버가 가진 자신감의 원천은 무엇일까. 물론 하이퍼클로바는 챗GPT보다 훨씬 방대한 양의 한국어 데이터를 학습했다. 그러나 그것만으로는 확실한 우위를 점하기 힘들다. 하이퍼클로바를 최고의 한국어 AI로 만들어 주는 것은 다름 아닌 '국어학'에 있다.

美 챗GPT vs 韓 하이퍼클로바

[이미지출처=픽사베이]

챗GPT와 하이퍼클로바를 완전히 동일선상에 두기는 힘들다. 챗GPT는 오픈AI의 대형 자연어 처리(NLP) 모델 'GPT-3'를 기반으로 한 챗봇이며, 하이퍼클로바는 번역, 검색 보조, 녹취록 작성 등 다양한 서비스와 연동된 다목적 NLP다.

언뜻 보기엔 GPT-3와 하이퍼클로바는 명확히 우열을 가리기 힘들어 보인다. AI 모델의 1차 성능을 좌우하는 '모델 크기', 즉 매개변수(parameter·패러미터) 개수는 GPT-3가 1750억개, 하이퍼클로바가 2040억개로 유사하다.

챗GPT와 하이퍼클로바 비교

네이버에 따르면 하이퍼클로바의 한국어 데이터 학습량은 GPT-3 대비 6500배에 달하지만, 꼭 데이터 세트 크기가 AI의 정확도를 좌우하는 절대적 척도인 것은 아니다. 구글이 지난 6일(현지시간) 야심 차게 공개한 챗봇 '바드'도 무수히 많은 데이터를 학습한 초대형 AI이지만, 첫 시연부터 오류를 범했다.

한국어 이해에 이상적인 네이버 AI…비결은 '국어학'

네이버의 인공지능(AI) 하이퍼클로바 로고 / 사진=네이버

네이버는 2021년 '네이버 AI 나우' 컨퍼런스 당시 하이퍼클로바에 대해 "우리말을 가장 잘 이해하고 구사하는 최초의 초대형 한국어 AI"라고 강조했다. 그 자신감은 어디서 기인한 걸까.

2021년 네이버가 공개한 AI 관련 논문 '대형 AI 모델이 가져올 변화는 무엇일까? - 하이퍼클로바 집중 연구'에서 실마리를 찾을 수 있다. 논문에 따르면, 하이퍼클로바는 주로 미국·영국의 연구기관에서 완성된 AI 모델을 '한국어 환경에 맞게' 최적화하는 데 많은 공을 들였다.

대화의 맥락을 파악해 정확한 답변을 하는 챗GPT는 마치 '말의 의미'를 이해하는 것처럼 보이지만, 통념과는 달리 컴퓨터는 우리처럼 언어를 알아듣는 게 아니다.

대신 AI는 사람의 말을 최소 단위로 쪼개 컴퓨터가 인지할 수 있는 바이트 데이터로 치환한 뒤, 거기서 패턴을 찾아내 가장 적절한 단어들을 조합한다. 이런 일련의 과정을 '토큰화(Tokenization)'라고 한다. 하이퍼클로바와 챗GPT의 가장 큰 차이는 토큰화 접근법에 있다.

영어권 국가에서 주로 사용되는 챗GPT는 알파벳 문자에 어울리는 토큰화 기법인 바이트 페어 인코딩(BPE)을 사용한다. 하지만 BPE는 문자를 나열해 의미 있는 단어를 만드는 영어에 적합하다.

반면 한국어의 낱말 조합 방식은 영어만으로는 완전히 커버할 수 없다. 네이버 또한 기존 BPE 방식으로는 "'젝' 등 일부 한글 문자가 토큰으로 포함될 수 없다"는 사실을 알았으며, 이 한계를 극복하고자 '한국어 형태소(의미를 가지는 말의 최소 단위)'에 어울리는 토큰 나눔 방식을 개발했다. 이 때문에 하이퍼클로바는 챗GPT보다 훨씬 한국어 의미 파악 성능에서 앞서나갈 수 있었다.

AI의 역설…순수학문이 성능 좌우할 수도

오픈AI 자연어처리 모델 챗GPT / 사진=연합뉴스

하이퍼클로바의 사례는 최첨단 인공지능 개발에 있어 '국어학 전문가'가 얼마나 중요한지 보여주는 사례다. AI를 이루는 모델 자체는 수학이나 프로그래밍이지만, AI가 인간의 말을 분석할 수 있게 하려면 언어 그 자체에 대한 심도 있는 지식이 전제되어야 하기 때문이다. 이처럼 AI 학습의 배경이 되는 순수학문적 지식을 '도메인 지식'이라고 한다.

AI가 연구, 산업, 예술 등 각계 전반에서 활약할수록 이같은 '도메인 전문가'의 중요성은 더욱 확대될 것으로 보인다. 중앙대 인문콘텐츠연구소 소속 박진호 교수는 2019년 출간한 '딥러닝 기반 자연어 처리에서 도메인 지식의 역할' 논문에서 이런 경향을 짚은 바 있다.

꼭 봐야 할 주요 뉴스

"지금부터 주가 2배 이상 뛴다" 데이터센터 지을때...

박 교수는 "딥러닝 시대에도 여전히 언어학자의 역할이 중요함을 증명하기 위해 한국어 형태소분석기를 개발했다"라며 "한국어는 의미의 분절이 쉽지 않지만, 분절 과제를 분류 문제로 재설정하면 기계학습으로 더 쉬운 해결이 가능했다"라며 "이 실험은 딥러닝 시대에도 언어학자의 지식이 여전히 중요함을 보여준다"라고 평했다. 우수한 AI는 단순히 IT나 반도체에만 의존하는 게 아니라, 뛰어난 순수학문 토양이 갖춰질 때 꽃피는 셈이다.

임주형 기자 skepped@asiae.co.kr

View English Article