[AI数据枯竭危机]敲开YouTube的ChatGPT：不择手段的数据猎捕

by Choi Yuri

Published 26 Jun.2024 07:30(KST)

Updated 26 Jun.2024 08:56(KST)

open/close

“掌握数据就是竞争力”
连竞品内容也不放过
众人凑数据共同收集

随着有关未来可能出现数据短缺的预期浮现，全球信息技术企业之间的“抢数据”竞争日趋激烈。因为在尽可能短的时间内大量获取高质量数据，正与人工智能（AI）的竞争力直接挂钩。就像人类读的书越多知识越深化一样，AI学习的数据越多，就会变得越聪明。

据信息技术业界26日消息，OpenAI最近与社交媒体平台Reddit签订了内容学习协议，目的在于学习Reddit上12亿用户发布的各类数据。其还与《金融时报》（Financial Times）、《华尔街日报》（The Wall Street Journal）等媒体签署了内容使用协议。

今年4月允许用户在无需注册账号或登录的情况下使用ChatGPT，也是为了获取数据所做的尝试。因为降低服务门槛，就能获得更多用户和更多数据。

近期有消息称，为了训练下一代模型GPT-5，OpenAI还讨论了利用谷歌和YouTube视频转写文本的可能性。甚至将竞争对手谷歌都作为潜在信息供应方加以考虑，OpenAI正通过多种方式获取数据。

苹果决定在获取AI训练用数据方面投资1亿美元（约合1300亿韩元）。首先计划向全球图片与视频内容公司Shutterstock支付5000万美元（约合670亿韩元）购买数据。同时，正与拥有《Vogue》《The New Yorker》、NBC News、《People》等媒体的IAC集团等就内容使用进行协商。据悉，苹果提出以数年间的报道等内容为代价，至少支付5000万美元。

在韩国国内，企业也开始以“众人拾柴”的方式共同收集数据。AI初创公司Upstage与韩国智能信息社会振兴院（NIA）、乐天购物等20多家机构和企业携手，组建了“1T（一万亿标记）俱乐部”。“标记”（Token）是AI可学习的句子最小单位。当合作伙伴提供1亿个以上的韩语数据标记时，Upstage将以折扣价格向其提供自研大语言模型（LLM），或与其分享相关收益。