본문 바로가기
Dim영역

ETRI, '구글 능가' AI 한국어 언어모델 공개

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

구글 배포 한국어 언어모델 대비 평균 4.5% 성능 우수

ETRI, '구글 능가' AI 한국어 언어모델 공개
AD
원본보기 아이콘


[아시아경제 김철현 기자] 인공지능(AI) 서비스 개발을 돕는 최첨단 한국어 언어모델이 공개됐다. 이로써 AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 AI 서비스 개발이 한층 고도화될 것으로 전망된다.


한국전자통신연구원(ETRI)은 11일 최첨단 한국어 언어모델 '코버트'를 홈페이지를 통해 공개했다고 밝혔다. 이번에 공개한 모델은 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 '교착어' 특성까지 반영해 만든 언어모델 등 두 종류다.

언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 '버트'를 사용했다. 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 하지만 ETRI 연구진은 여기에 23GB에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 만들었다. 또 한국어의 의미 최소 단위까지 고려해 한국어 특성을 최대한 반영한 언어모델을 개발했다.


개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 평균 4.5% 가량 우수했다. 특히 '단락 순위화' 기준에서는 7.4%나 높은 수치를 기록했다. 연구진의 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 개발자들의 많은 활용이 이뤄질 것으로 기대된다. 김현기 ETRI 박사는"한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다"고 말했다.




김철현 기자 kch@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • 김호중 "거짓이 더 큰 거짓 낳아…수일 내 자진 출석" 심경고백 [포토] 오동운 후보 인사청문회... 수사·증여 논란 등 쟁점 오늘 오동운 공수처장 후보 인사청문회…'아빠·남편 찬스' '변호전력' 공격받을 듯

    #국내이슈

  • 이란당국 “대통령 사망 확인”…중동 긴장 고조될 듯(종합) 골반 붙은 채 태어난 샴쌍둥이…"3년 만에 앉고 조금씩 설 수도" "학대와 성희롱 있었다"…왕관반납 미인대회 우승자 어머니 폭로

    #해외이슈

  • [포토] 검찰 출두하는 날 추가 고발 '시스루 옷 입고 공식석상' 김주애 패션…"北여성들 충격받을 것" 이창수 신임 서울중앙지검장, 김 여사 수사 "법과 원칙 따라 제대로 진행"

    #포토PICK

  • 기아 EV6, 독일 전기차 비교평가서 ID.5 제쳤다 車수출, 절반이 미국행인데…韓 적자탈출 타깃될까 [르포]AWS 손잡은 현대차, 자율주행 시뮬레이션도 클라우드로

    #CAR라이프

  • [뉴스속 용어]한-캄보디아 정상 '전략적 동반자 관계' 수립 세계랭킹 2위 매킬로이 "결혼 생활 파탄이 났다" [뉴스속 용어]머스크, 엑스 검열에 대해 '체리 피킹'

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼