본문 바로가기
Dim영역

ETRI, '구글 능가' AI 한국어 언어모델 공개

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

구글 배포 한국어 언어모델 대비 평균 4.5% 성능 우수

ETRI, '구글 능가' AI 한국어 언어모델 공개
AD
원본보기 아이콘


[아시아경제 김철현 기자] 인공지능(AI) 서비스 개발을 돕는 최첨단 한국어 언어모델이 공개됐다. 이로써 AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 AI 서비스 개발이 한층 고도화될 것으로 전망된다.


한국전자통신연구원(ETRI)은 11일 최첨단 한국어 언어모델 '코버트'를 홈페이지를 통해 공개했다고 밝혔다. 이번에 공개한 모델은 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 '교착어' 특성까지 반영해 만든 언어모델 등 두 종류다.

언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 '버트'를 사용했다. 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 하지만 ETRI 연구진은 여기에 23GB에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 만들었다. 또 한국어의 의미 최소 단위까지 고려해 한국어 특성을 최대한 반영한 언어모델을 개발했다.


개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 평균 4.5% 가량 우수했다. 특히 '단락 순위화' 기준에서는 7.4%나 높은 수치를 기록했다. 연구진의 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 개발자들의 많은 활용이 이뤄질 것으로 기대된다. 김현기 ETRI 박사는"한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다"고 말했다.




김철현 기자 kch@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • "편파방송으로 명예훼손" 어트랙트, SBS '그알' 제작진 고소 강릉 해안도로에 정체모를 빨간색 외제차…"여기서 사진 찍으라고?" ‘하이브 막내딸’ 아일릿, K팝 최초 데뷔곡 빌보드 핫 100 진입

    #국내이슈

  • "푸바오 잘 지내요" 영상 또 공개…공식 데뷔 빨라지나 대학 나온 미모의 26세 女 "돼지 키우며 월 114만원 벌지만 행복" '세상에 없는' 미모 뽑는다…세계 최초로 열리는 AI 미인대회

    #해외이슈

  • [포토] '그날의 기억' [이미지 다이어리] 그곳에 목련이 필 줄 알았다. [포토] 황사 극심, 뿌연 도심

    #포토PICK

  • 매끈한 뒷태로 600㎞ 달린다…쿠페형 폴스타4 6월 출시 마지막 V10 내연기관 람보르기니…'우라칸STJ' 출시 게걸음 주행하고 제자리 도는 車, 국내 첫선

    #CAR라이프

  • [뉴스속 용어]'비흡연 세대 법'으로 들끓는 영국 사회 [뉴스속 용어]'법사위원장'이 뭐길래…여야 쟁탈전 개막 [뉴스속 용어]韓 출산율 쇼크 부른 ‘차일드 페널티’

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼