数据枯竭带来的人工智能变局
人们一直以为人工智能(AI)会不断变得更聪明。每年都有新模型问世,回答愈发自然,追赶人类能力的速度也越来越快。我们不知不觉间,已经把人工智能的持续进步当作理所当然的前提。
但近期在人工智能产业和研究一线,开始出现一个略有不同的问题:如果有一天人工智能再也没有东西可学了,接下来会怎样?人工智能的发展真的能无止境地持续下去吗?
这一问题的出发点在于“训练数据”。人工智能并不会自己去体验世界,而是通过人类留下的记录——文本、图像、视频和语音数据来学习世界。AI 的智能并非仅靠算力堆砌,而是高度取决于它学习了多少、以及多大程度上多样且高质量的数据。然而,关于这类学习“原料”正逐步逼近极限的警告,已接连不断。

名为互联网的“金矿”见底:2026年的警告
迄今为止,大规模语言模型(LLM)一直依托互联网上公开的海量数据成长。网页文档、新闻报道、书籍与论文,都是 AI 的教科书。然而,可公开获取的高质量数据,大部分其实已经被收集殆尽。
全球人工智能研究机构 Epoch 最近在一份报告中警告称,人类创造的高质量文本数据资产,最早可能会在 2026 年至 2030 年之间彻底见底。剩余的数据往往要么因版权问题而被严加限制访问,要么就是需要支付高昂费用的付费数据。