container
Dim
读科学

再无可学的人工智能,人类会变得不再需要吗

盖蒂图片社
盖蒂图片社
数据枯竭带来的人工智能变局

人们一直以为人工智能(AI)会不断变得更聪明。每年都有新模型问世,回答愈发自然,追赶人类能力的速度也越来越快。我们不知不觉间,已经把人工智能的持续进步当作理所当然的前提。


但近期在人工智能产业和研究一线,开始出现一个略有不同的问题:如果有一天人工智能再也没有东西可学了,接下来会怎样?人工智能的发展真的能无止境地持续下去吗?


这一问题的出发点在于“训练数据”。人工智能并不会自己去体验世界,而是通过人类留下的记录——文本、图像、视频和语音数据来学习世界。AI 的智能并非仅靠算力堆砌,而是高度取决于它学习了多少、以及多大程度上多样且高质量的数据。然而,关于这类学习“原料”正逐步逼近极限的警告,已接连不断。



名为互联网的“金矿”见底:2026年的警告

迄今为止,大规模语言模型(LLM)一直依托互联网上公开的海量数据成长。网页文档、新闻报道、书籍与论文,都是 AI 的教科书。然而,可公开获取的高质量数据,大部分其实已经被收集殆尽。


全球人工智能研究机构 Epoch 最近在一份报告中警告称,人类创造的高质量文本数据资产,最早可能会在 2026 年至 2030 年之间彻底见底。剩余的数据往往要么因版权问题而被严加限制访问,要么就是需要支付高昂费用的付费数据。

�vR �'`��U_<�B�R�>� ��Q!k�S�_͑��"link"�{$�

�vR �'`��U_<BR> �Q!k�S�_͑��"link"{$

원본보기 아이콘

因此,人工智能企业已几乎不可能再像过去那样,通过“未经授权的大规模抓取”来进行训练。数据获取不再只是技术竞争,而是演变成需要巨额资本和旷日持久法律攻防的领域。实际上,《纽约时报》(NYT)等主要媒体及作家对 OpenAI 等公司提起的版权诉讼,正是人工智能行业面临“数据壁垒”的象征性案例。


高丽大学知识产权战略学科教授 Lee Sungyeop 表示:“可以认为,大型语言模型已经把网络上公开的数据大多扫过一遍了。单纯通过增加数据量(Quantity)的方式,如今只会掺入大量重复或再加工的低质量文本,对提升智能的边际效用正急剧下降。”


他接着指出:“现在需要的不再是简单的语料库,而是经过精细标注、包含高难度逻辑结构和人类价值判断的数据。但生产和验证这类数据的成本,正呈指数级攀升。”

再无可学的人工智能,人类会变得不再需要吗 원본보기 아이콘

合成数据的悖论:“模型崩塌”这道无形之墙

在数据短缺的背景下,业界寄予厚望的替代方案是“合成数据(Synthetic Data)”——用 AI 生成的文本和图像来训练下一代 AI。如果人类记录不够,那就让 AI 自行生成数据,自我进化。这一思路近来却暴露出名为“模型崩塌(Model Collapse)”的致命结构性缺陷。


英国牛津大学、剑桥大学和加拿大多伦多大学的联合研究团队在国际学术期刊《自然》发表论文指出,多次用 AI 生成数据循环训练模型,会导致模型在短短几代之内就遗忘原始数据分布,出现语无伦次的“智能退化”过程。研究团队据此分析了这样一种机制:AI 会把概率上罕见的案例(Outliers)视作单纯误差而删除,从而使信息多样性急剧消失。


这就好比不断复印照片,再用复印件复印,终有一刻图像会模糊到看不清原貌——这种“劣化现象”同样会在智能领域上演。结果是,只依赖合成数据的 AI,最终会被困在不断重复偏差信息的“回音室(Echo Chamber)”之中。

再无可学的人工智能,人类会变得不再需要吗 원본보기 아이콘

科技巨头的战略调整:Ilya Sutskever 与 Yann LeCun 的视角

这种危机感也清晰体现在人工智能大师们的表态中。OpenAI 联合创始人、前首席科学家 Ilya Sutskever 最近在一次主题演讲中指出:“我们几乎已经把名为互联网的金矿挖得差不多了,仅靠简单的规模扩展(Scaling Law),很难再迈向下一阶段的智能。”这句话宣告,人工智能竞争的胜负手,正从 GPU 数量转移到“他人不具备的排他性数据”上。


Meta 的人工智能首席科学家 Yann LeCun 也一直在指出以文本为主的学习方式存在根本性局限。他在著作和学术演讲中强调:“人类的孩子并不是通过阅读数万亿个单词获得智能,而是通过与物理世界的实时互动来学习。”他批评说,只依赖文本数据的当前训练方式,终究会陷入与现实世界脱节的“幻觉循环”。他主张,必须从文本迈向视频与感知数据,构建能够自我理解物理法则的“世界模型(World Model)”架构。

再无可学的人工智能,人类会变得不再需要吗 원본보기 아이콘

重新变得重要的“人类记录”和那些问题

归根结底,人工智能学习进入停滞期,并非技术灾难,而是意味着“增长范式”正在发生变化。过去是人工智能通过大规模吸收人类记录来不断“长个子”的阶段;而接下来,数据的“量”不再是关键,“质”以及创造这些数据的人类的原创记录,将成为决定 AI 存续的珍贵资产。


实验室中精密的观测数据、现场鲜活的观察记录,以及只有人类才能做出的复杂道德与哲学判断,都是 AI 无法自行合成的领域。正因如此,谷歌、微软等大型科技企业不再满足于简单的数据收集,而是投入天文数字的资金,雇用专家团队,亲自为 AI 编写用来教学的“高质量试题”。


人工智能的下一阶段并不只存在于机器内部,其答案依旧在于人类所生活的物理世界,以及在其中产生的一手数据。当下看似“AI 无课可上”的时刻,其实并非技术的尽头,而是一段重新追问:人类究竟要珍惜记录和留下什么的反思时间。我们正从一个追问“AI 能做什么”的时代,迈入一个必须思考“我们要把怎样的世界留在数据中”的时代。

top버튼