再无可学的人工智能，人类会变得不再需要吗

数据枯竭带来的人工智能变局

人们一直以为人工智能（AI）会不断变得更聪明。每年都有新模型问世，回答愈发自然，追赶人类能力的速度也越来越快。我们不知不觉间，已经把人工智能的持续进步当作理所当然的前提。

但近期在人工智能产业和研究一线，开始出现一个略有不同的问题：如果有一天人工智能再也没有东西可学了，接下来会怎样？人工智能的发展真的能无止境地持续下去吗？

这一问题的出发点在于“训练数据”。人工智能并不会自己去体验世界，而是通过人类留下的记录——文本、图像、视频和语音数据来学习世界。AI 的智能并非仅靠算力堆砌，而是高度取决于它学习了多少、以及多大程度上多样且高质量的数据。然而，关于这类学习“原料”正逐步逼近极限的警告，已接连不断。

名为互联网的“金矿”见底：2026年的警告

迄今为止，大规模语言模型（LLM）一直依托互联网上公开的海量数据成长。网页文档、新闻报道、书籍与论文，都是 AI 的教科书。然而，可公开获取的高质量数据，大部分其实已经被收集殆尽。

全球人工智能研究机构 Epoch 最近在一份报告中警告称，人类创造的高质量文本数据资产，最早可能会在 2026 年至 2030 年之间彻底见底。剩余的数据往往要么因版权问题而被严加限制访问，要么就是需要支付高昂费用的付费数据。

$�vR �'`��U_<�B�R�>� ��Q!k�S�_͑��"link"�{$�$

�vR �'`��U_<BR> �Q!k�S�_͑��"link"{$

因此，人工智能企业已几乎不可能再像过去那样，通过“未经授权的大规模抓取”来进行训练。数据获取不再只是技术竞争，而是演变成需要巨额资本和旷日持久法律攻防的领域。实际上，《纽约时报》（NYT）等主要媒体及作家对 OpenAI 等公司提起的版权诉讼，正是人工智能行业面临“数据壁垒”的象征性案例。

高丽大学知识产权战略学科教授 Lee Sungyeop 表示：“可以认为，大型语言模型已经把网络上公开的数据大多扫过一遍了。单纯通过增加数据量（Quantity）的方式，如今只会掺入大量重复或再加工的低质量文本，对提升智能的边际效用正急剧下降。”

他接着指出：“现在需要的不再是简单的语料库，而是经过精细标注、包含高难度逻辑结构和人类价值判断的数据。但生产和验证这类数据的成本，正呈指数级攀升。”

合成数据的悖论：“模型崩塌”这道无形之墙

在数据短缺的背景下，业界寄予厚望的替代方案是“合成数据（Synthetic Data）”——用 AI 生成的文本和图像来训练下一代 AI。如果人类记录不够，那就让 AI 自行生成数据，自我进化。这一思路近来却暴露出名为“模型崩塌（Model Collapse）”的致命结构性缺陷。

英国牛津大学、剑桥大学和加拿大多伦多大学的联合研究团队在国际学术期刊《自然》发表论文指出，多次用 AI 生成数据循环训练模型，会导致模型在短短几代之内就遗忘原始数据分布，出现语无伦次的“智能退化”过程。研究团队据此分析了这样一种机制：AI 会把概率上罕见的案例（Outliers）视作单纯误差而删除，从而使信息多样性急剧消失。

这就好比不断复印照片，再用复印件复印，终有一刻图像会模糊到看不清原貌——这种“劣化现象”同样会在智能领域上演。结果是，只依赖合成数据的 AI，最终会被困在不断重复偏差信息的“回音室（Echo Chamber）”之中。

科技巨头的战略调整：Ilya Sutskever 与 Yann LeCun 的视角

这种危机感也清晰体现在人工智能大师们的表态中。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 最近在一次主题演讲中指出：“我们几乎已经把名为互联网的金矿挖得差不多了，仅靠简单的规模扩展（Scaling Law），很难再迈向下一阶段的智能。”这句话宣告，人工智能竞争的胜负手，正从 GPU 数量转移到“他人不具备的排他性数据”上。

Meta 的人工智能首席科学家 Yann LeCun 也一直在指出以文本为主的学习方式存在根本性局限。他在著作和学术演讲中强调：“人类的孩子并不是通过阅读数万亿个单词获得智能，而是通过与物理世界的实时互动来学习。”他批评说，只依赖文本数据的当前训练方式，终究会陷入与现实世界脱节的“幻觉循环”。他主张，必须从文本迈向视频与感知数据，构建能够自我理解物理法则的“世界模型（World Model）”架构。

重新变得重要的“人类记录”和那些问题

归根结底，人工智能学习进入停滞期，并非技术灾难，而是意味着“增长范式”正在发生变化。过去是人工智能通过大规模吸收人类记录来不断“长个子”的阶段；而接下来，数据的“量”不再是关键，“质”以及创造这些数据的人类的原创记录，将成为决定 AI 存续的珍贵资产。

实验室中精密的观测数据、现场鲜活的观察记录，以及只有人类才能做出的复杂道德与哲学判断，都是 AI 无法自行合成的领域。正因如此，谷歌、微软等大型科技企业不再满足于简单的数据收集，而是投入天文数字的资金，雇用专家团队，亲自为 AI 编写用来教学的“高质量试题”。

人工智能的下一阶段并不只存在于机器内部，其答案依旧在于人类所生活的物理世界，以及在其中产生的一手数据。当下看似“AI 无课可上”的时刻，其实并非技术的尽头，而是一段重新追问：人类究竟要珍惜记录和留下什么的反思时间。我们正从一个追问“AI 能做什么”的时代，迈入一个必须思考“我们要把怎样的世界留在数据中”的时代。