遗传病折磨下的人工智能 [AI错误笔记]

by Kim Dongpyo

Published 15 Mar.2025 15:00(KST)

数据枯竭，若靠“合成数据”填补
恐步欧洲霸主哈布斯堡王朝后尘走向崩塌
数据多样性与人类生成信息始终关键

编者按审视失败，是通往成功的捷径。“AI错误笔记”专栏探讨与人工智能相关的产品、服务、企业与人物的失败案例。

哈布斯堡（Habsburg）家族是近600年来统治欧洲的王室之一，其秘诀在于“婚姻”。他们通过与周边列强缔结联姻关系，逐步确立了自己的统治权。这一家族的卡洛五世同时拥有神圣罗马帝国皇帝、西班牙国王、德意志国王、奥地利大公、尼德兰领主等二十多个头衔，而他当时年仅19岁。

他们试图让王室血统保持“纯正”，因此不断进行近亲通婚。叔侄婚、表亲婚极为常见，这最终导致了遗传病。

近亲通婚导致的典型遗传特征之一就是“哈布斯堡下巴”。这种症状表现为下颌异常前突，患者在发音和咀嚼方面都会遇到困难。西班牙的卡洛斯二世是这一特征最为严重的代表人物之一。

多代持续的近亲婚配极大降低了遗传多样性，并引发了健康问题。以卡洛斯二世为例，他饱受严重的身体和精神障碍折磨，最终在未留下子嗣的情况下去世，西班牙哈布斯堡王朝也由此终结。可以说，是靠婚姻兴起，又因婚姻而衰亡。这一案例很好地说明了遗传多样性对个体可持续性的重要性。

哈布斯堡的案例在人工智能行业也常被提及，甚至出现了“哈布斯堡AI”这一称呼。字面含义就是借用哈布斯堡帝国因近亲婚配而走向崩溃这一历史事实，来指代一种现象：当人工智能模型过度依赖“合成数据（Synthetic Data）”时，可能出现的问题。

快速且低成本的数据：合成数据的力量

“合成数据”这一概念最早由美国哈佛大学统计学系教授 Donald Rubin 于1993年提出。Getty Image Bank供图

所谓合成数据，是指模仿真实数据而人工生成的数据。当缺乏适合训练的真实数据，或获取数据的成本过高时，合成数据就成为一种替代方案。

例如，在自动驾驶汽车开发过程中，合成数据就十分有用。若要训练系统避免碰撞，就需要大量碰撞相关的数据。但与变道、识别路牌等场景相比，碰撞数据的数量少得多，因为事故发生频率本就明显较低。这时，如果通过计算机模拟在虚拟道路上进行驾驶，并反复重现碰撞场景，就能获得所需数据，既快速又低成本。

还可以有意识地补充真实数据中稀缺的特定场景或罕见案例，从而弥补数据空白；在矫正数据偏差、平衡样本分布方面也有帮助。

保护隐私同样是合成数据的一大优势。无需直接使用真实个人信息，也能用具有相似特征的数据来训练人工智能。例如，可以基于真实病历生成虚拟患者数据，或分析真实交易记录后生成具有类似模式的虚拟交易数据。

据全球市场调研机构高德纳（Gartner）预测，到2030年前后，用于人工智能训练的合成数据将会超过真实数据的使用量。高德纳还预计，“如果没有合成数据，将无法开发出高性能、高质量的人工智能。”

由Elon Musk创立的人工智能初创公司xAI上个月发布了人工智能聊天机器人“Grok 3”。xAI在当天通过直播的发布会上宣称，“Grok 3在数学、科学、编程基准测试中超越了Alphabet旗下的Google Gemini、Anthropic的Claude以及OpenAI的GPT-4o。”

其出色的性能足以引发关注。Musk表示，“Grok 3的算力是前一版本的10倍以上”，并称其为“地球上最聪明的人工智能”。xAI研究团队解释称，“Grok 3通过大规模合成数据集、自我纠错以及强化学习，比Grok 2能够给出更精细的结果。”该公司于2023年7月成立，当年11月首次发布“Grok”，去年8月推出“Grok 2”，距今不过半年时间。

能在如此短时间内打造出性能强大的人工智能，其中一个秘诀正是xAI研究团队此前提到的“合成数据”。

指向Grok的问号：合成数据的风险

设计师 Martin Dízli 以“哈布斯堡 AI”为主题生成的肖像图像。Martin Dízli Instagram供图

然而，Grok 3也立刻遭遇了批评。虽然性能优异，但正是让Grok 3变得强大的那项优势——合成数据，同时也可能成为它的毒药。

英国牛津大学研究团队在去年6月发表于国际学术期刊《自然》的论文中指出，使用非人类、而是由人工智能生成的数据来训练人工智能，其性能可能会急剧下降。研究人员首先利用一个人工智能模型生成了关于14世纪英国教堂塔楼和建筑物的文本信息，随后再以此为基础诱导模型给出新的回答，如此反复进行反馈循环。随着这一过程不断重复，人工智能开始给出莫名其妙的结果：关于中世纪建筑的内容逐渐消失，不仅在未被要求的情况下用外语作答，甚至还无端讲起兔子的故事。

研究团队将这一现象概念化为“模型崩塌（models collapse）”。也就是说，如果让人工智能反复以自己生成的信息为素材进行学习，其输出结果的价值会不断退化。澳大利亚莫纳什大学的数据科学家Jason Sadowski干脆将其命名为“哈布斯堡AI”，以比喻哈布斯堡家族因持续近亲繁殖而丧失遗传多样性、最终走向衰亡的过程。

围绕合成数据还有另一类潜在风险：不仅无法中和数据中原有的偏见，反而可能将其放大。利用合成数据训练的人工智能模型，可能会原封不动地复制甚至强化既有数据的偏见。《金融时报》（Financial Times）评论称，这正是大型科技公司为了获取人类生成的数据而投入巨额资金的原因。