본문 바로가기
Dim영역

[AI 데이터 고갈 위기]유튜브 두드리는 챗GPT...물불 안 가리는 데이터 사냥

뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄 RSS

"데이터 확보가 곧 경쟁력"
경쟁사 콘텐츠까지 기웃
데이터 십시일반 모으기도

[AI 데이터 고갈 위기]유튜브 두드리는 챗GPT...물불 안 가리는 데이터 사냥
AD
원본보기 아이콘

데이터 부족 현상이 발생할 수 있다는 전망이 나오면서 글로벌 IT 기업들의 데이터 확보 경쟁이 치열해지고 있다. 양질의 데이터를 가급적 빠른 시일 내에 대량으로 확보하는 게 인공지능(AI) 경쟁력으로 직결되기 때문이다. 사람이 더 많은 책을 읽을수록 지식이 고도화되듯 AI는 더 많은 데이터를 학습할수록 더 똑똑해진다.


26일 IT 업계에 따르면 오픈AI는 최근 소셜미디어 레딧과 콘텐츠 학습 계약을 맺었다. 레딧 이용자 12억명이 게시하는 각종 데이터를 학습하기 위해서다. 파이낸셜타임스(FT), 월스트리트저널(WSJ) 등 언론사와도 콘텐츠 사용 계약을 체결했다.

지난 4월 계정 가입이나 로그인 없이 챗GPT를 이용할 수 있게 한 것도 데이터를 확보하기 위한 시도다. 서비스 문턱을 낮추면 더 많은 사용자와 데이터를 얻을 수 있기 때문이다.


최근에는 차세대 모델인 GPT-5 학습을 위해 구글과 유튜브 동영상 녹취본 활용 가능성을 논의한 것으로 알려졌다. 경쟁사인 구글까지 정보 공급처로 검토할 만큼 오픈AI는 다양한 방법으로 데이터를 확보하고 있다.


애플은 AI 학습용 데이터 확보에 1억달러(약 1300억원)를 투자하기로 했다. 우선 글로벌 이미지·영상 콘텐츠 업체 셔터스톡에 5000만달러(약 670억원)를 주고 데이터를 구매할 계획이다. 이와 함께 잡지사 보그, 뉴요커, NBC 뉴스, 피플지 등을 소유한 IAC그룹 등과 콘텐츠 이용 협상을 진행 중이다. 수년 간의 기사 등을 이용하는 대가로 최소 5000만달러를 제안한 것으로 전해진다.

국내에서도 기업들이 데이터를 십시일반 모으는 작업에 나섰다. AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA), 롯데쇼핑 등 기관·기업 20여 곳과 손잡고 '1T(1조 토큰) 클럽'을 만들었다. 토큰은 AI가 학습할 수 있는 문장의 최소 단위다. 협업 파트너가 한국어 데이터 1억 토큰 이상을 제공하면 업스테이지는 이들에게 자체 거대언어모델(LLM)을 할인된 가격으로 제공하거나 관련 수익을 공유한다.


기업들은 학습용 데이터를 직접 만들기도 한다. '데이터 증강'이나 '데이터 합성' 등을 이용한다. 기존 데이터를 변형하거나 합성해 데이터를 다양하게 만드는 것이다. 또 AI가 생성한 학습용 데이터를 활용하기도 하고 적은 데이터로 AI를 효율적으로 학습시킬 수 있게 AI 모델 구조를 바꾸기도 한다.





최유리 기자 yrchoi@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기

이슈 PICK

  • 서울 올림픽대로 여의상류IC 교통 통제 '집값 거품 터질라'…국민·신한·우리, 금리 또 올렸다 전공의 대부분 미복귀…정부 "하반기 모집 일정 차질없이 진행"

    #국내이슈

  • "암살서 살아남은 트럼프와 대비" 바이든, 사퇴 압박 속 코로나19 재확진(종합) "김연아 떠난 후에야 1등 할 수 있었다"…아사다 마오, 13년 만 심경 고백 예상치 웃돈 英 CPI…테일러 스위프트 효과?

    #해외이슈

  • [포토] 채소값 폭등, 호박 사기도 겁나네 [포토] 물보라 일으키며 달리는 차량 尹 '포토에세이' 발간…"정책 비하인드, 비공개 사진 포함"

    #포토PICK

  • [포토] 거침없이 달린다, 올 뉴 콜로라도 사전계약 7000대 돌풍, 르노 '콜레오스' 부산서 양산 개시 셀토스 연식변경 출시…60만원 내외 인상

    #CAR라이프

  • [뉴스속 용어]유럽 첫 데뷔, 체코 맞춤형 한국형 원자로 'APR1000' [뉴스속 인물]"총격 듣자마자 알아" 美대선 흔들 역사적 사진 찍은 퓰리처상 수상자 "드라마에선 피곤할 때 이거 먹더라"…'PPL 사탕' 코피코 만든 이 회사[뉴스속 기업]

    #뉴스속OO

간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

top버튼

한 눈에 보는 오늘의 이슈