[AI数据枯竭危机]敲开YouTube的ChatGPT:不择手段的数据猎捕
“掌握数据就是竞争力”
连竞品内容也不放过
众人凑数据共同收集
随着有关未来可能出现数据短缺的预期浮现,全球信息技术企业之间的“抢数据”竞争日趋激烈。因为在尽可能短的时间内大量获取高质量数据,正与人工智能(AI)的竞争力直接挂钩。就像人类读的书越多知识越深化一样,AI学习的数据越多,就会变得越聪明。
据信息技术业界26日消息,OpenAI最近与社交媒体平台Reddit签订了内容学习协议,目的在于学习Reddit上12亿用户发布的各类数据。其还与《金融时报》(Financial Times)、《华尔街日报》(The Wall Street Journal)等媒体签署了内容使用协议。
今年4月允许用户在无需注册账号或登录的情况下使用ChatGPT,也是为了获取数据所做的尝试。因为降低服务门槛,就能获得更多用户和更多数据。
近期有消息称,为了训练下一代模型GPT-5,OpenAI还讨论了利用谷歌和YouTube视频转写文本的可能性。甚至将竞争对手谷歌都作为潜在信息供应方加以考虑,OpenAI正通过多种方式获取数据。
苹果决定在获取AI训练用数据方面投资1亿美元(约合1300亿韩元)。首先计划向全球图片与视频内容公司Shutterstock支付5000万美元(约合670亿韩元)购买数据。同时,正与拥有《Vogue》《The New Yorker》、NBC News、《People》等媒体的IAC集团等就内容使用进行协商。据悉,苹果提出以数年间的报道等内容为代价,至少支付5000万美元。
在韩国国内,企业也开始以“众人拾柴”的方式共同收集数据。AI初创公司Upstage与韩国智能信息社会振兴院(NIA)、乐天购物等20多家机构和企业携手,组建了“1T(一万亿标记)俱乐部”。“标记”(Token)是AI可学习的句子最小单位。当合作伙伴提供1亿个以上的韩语数据标记时,Upstage将以折扣价格向其提供自研大语言模型(LLM),或与其分享相关收益。
企业也会直接制作训练用数据,利用“数据增强”或“数据合成”等方式,通过对既有数据进行变形或合成,使数据更加多样化。此外,还会利用由AI生成的训练数据,或者通过改变AI模型结构,使其能够用较少的数据进行高效学习。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。