본문 바로가기
Dim영역

"풀어야 큰다"…구글, 대화용 AI 데이터셋 무료 공개

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

영화취향 관련 대화 데이터 1만여개 공개
식당·영화 등 예약 관련 데이터도 무료로 풀어

"풀어야 큰다"…구글, 대화용 AI 데이터셋 무료 공개
AD
원본보기 아이콘

[아시아경제 이민우 기자] 구글이 인공지능(AI) 학습을 위해 수만개의 데이터를 무료로 공개했다. 이를 통해 보다 사람과 비슷한 수준으로 자연스럽게 말하는 AI를 구현한다는 전략이다.


6일(현지시간) 벤처비트, 더버지 등 정보기술 전문매체 등은 구글이 이 같은 대화 데이터 묶음 'CCPE'와 '태스크마스터-1'을 무료로 공개했다고 전했다.

구글의 연구자들은 CCPE를 새로운 음성 대화 수집 방법이라고 설명했다. CCPE에는 500가지의 대화가 데이터화(化) 됐다. 여기에는 사람들이 1만2000번의 발언을 주고 받으며 영화 취향에 대한 의견을 나눴다. 배우와 감독 이름 등과 같은 메타데이터의 가치 때문에 영화 취향이 주제로 꼽혔다. 구글 측은 "우리는 세부적인 대본을 미리 제시하거나 일정 수준의 배경 지식을 갖춘 이용자들의 대화만을 취급하지 않았다"며 "때문에 기존 데이터묶음에 비해 더 현실적이고 다양한 대화를 담을 수 있었다"고 설명했다.


'태스크마스터-1' 데이터묶음은 1만3000개 이상의 대화로 구성됐다. 피자주문, 자동차수리 예약, 영화 예매, 커피 주문, 식당 예약 등 6가지로 분류해 상황에 맞는 대화 내용을 AI가 학습할수 있도록 데이터화한 것이다. 구글이 AI 관련 기술과 데이터를 무료로 공개한 것은 이번이 처음이 아니다. 일찌감치 머신러닝 개발 툴 '텐서플로우'를 무료로 공개하며 AI업계에 큰 전환점을 제시했다는 평을 받았다.


국내에서도 LG CNS가 최근 다량의 AI학습용 데이터를 공개했다. 위키백과 정보를 기반으로 만든 AI 학습용 한국어 표준데이터 묶음 '코쿼드 2.0'이다. 한국어 표준데이터 10만개 가량이 담겨 AI가 장문의 답변을 하는 데 활용될 전망이다. 예를 들어'서울특별시의 특징은?'과 같은 질문에도 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인 곳'이라는 답변도 가능해지는 식이다.

기업들이 AI 데이터를 이처럼 공개적으로 배포하는 이유는 유료로 판매하거나 비공개로 내부에서 활용하는 것보다 더욱 이득이 되기 때문이다. 업계 관계자는 "집단지성을 활용해 다양한 피드백을 받고 자연스레 우수한 인재를 영입하기도 보다 수월해지기 때문"이라고 설명했다.




이민우 기자 letzwin@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • [포토] 오동운 후보 인사청문회... 수사·증여 논란 등 쟁점 오늘 오동운 공수처장 후보 인사청문회…'아빠·남편 찬스' '변호전력' 공격받을 듯 우원식, 22대 전반기 국회의장 후보 당선…추미애 탈락 이변

    #국내이슈

  • 골반 붙은 채 태어난 샴쌍둥이…"3년 만에 앉고 조금씩 설 수도" "학대와 성희롱 있었다"…왕관반납 미인대회 우승자 어머니 폭로 "1000엔 짜리 라멘 누가 먹겠냐"…'사중고' 버티는 일본 라멘집

    #해외이슈

  • '시스루 옷 입고 공식석상' 김주애 패션…"北여성들 충격받을 것" 이창수 신임 서울중앙지검장, 김 여사 수사 "법과 원칙 따라 제대로 진행" 햄버거에 비닐장갑…프랜차이즈 업체, 증거 회수한 뒤 ‘모르쇠’

    #포토PICK

  • 車수출, 절반이 미국행인데…韓 적자탈출 타깃될까 [르포]AWS 손잡은 현대차, 자율주행 시뮬레이션도 클라우드로 "역대 가장 강한 S클래스"…AMG S63E 퍼포먼스 국내 출시

    #CAR라이프

  • [뉴스속 용어]한-캄보디아 정상 '전략적 동반자 관계' 수립 세계랭킹 2위 매킬로이 "결혼 생활 파탄이 났다" [뉴스속 용어]머스크, 엑스 검열에 대해 '체리 피킹'

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼