数据枯竭,若靠“合成数据”填补
恐步欧洲霸主哈布斯堡王朝后尘走向崩塌
数据多样性与人类生成信息始终关键

编者按审视失败,是通往成功的捷径。“AI错误笔记”专栏探讨与人工智能相关的产品、服务、企业与人物的失败案例。

哈布斯堡(Habsburg)家族是近600年来统治欧洲的王室之一,其秘诀在于“婚姻”。他们通过与周边列强缔结联姻关系,逐步确立了自己的统治权。这一家族的卡洛五世同时拥有神圣罗马帝国皇帝、西班牙国王、德意志国王、奥地利大公、尼德兰领主等二十多个头衔,而他当时年仅19岁。


他们试图让王室血统保持“纯正”,因此不断进行近亲通婚。叔侄婚、表亲婚极为常见,这最终导致了遗传病。


近亲通婚导致的典型遗传特征之一就是“哈布斯堡下巴”。这种症状表现为下颌异常前突,患者在发音和咀嚼方面都会遇到困难。西班牙的卡洛斯二世是这一特征最为严重的代表人物之一。

近亲通婚导致的典型遗传特征之一就是“哈布斯堡下巴”。这种症状表现为下颌异常前突,患者在发音和咀嚼方面都会遇到困难。西班牙的卡洛斯二世是这一特征最为严重的代表人物之一。

View original image



多代持续的近亲婚配极大降低了遗传多样性,并引发了健康问题。以卡洛斯二世为例,他饱受严重的身体和精神障碍折磨,最终在未留下子嗣的情况下去世,西班牙哈布斯堡王朝也由此终结。可以说,是靠婚姻兴起,又因婚姻而衰亡。这一案例很好地说明了遗传多样性对个体可持续性的重要性。


哈布斯堡的案例在人工智能行业也常被提及,甚至出现了“哈布斯堡AI”这一称呼。字面含义就是借用哈布斯堡帝国因近亲婚配而走向崩溃这一历史事实,来指代一种现象:当人工智能模型过度依赖“合成数据(Synthetic Data)”时,可能出现的问题。


快速且低成本的数据:合成数据的力量
“合成数据”这一概念最早由美国哈佛大学统计学系教授 Donald Rubin 于1993年提出。Getty Image Bank供图

“合成数据”这一概念最早由美国哈佛大学统计学系教授 Donald Rubin 于1993年提出。Getty Image Bank供图

View original image

所谓合成数据,是指模仿真实数据而人工生成的数据。当缺乏适合训练的真实数据,或获取数据的成本过高时,合成数据就成为一种替代方案。


例如,在自动驾驶汽车开发过程中,合成数据就十分有用。若要训练系统避免碰撞,就需要大量碰撞相关的数据。但与变道、识别路牌等场景相比,碰撞数据的数量少得多,因为事故发生频率本就明显较低。这时,如果通过计算机模拟在虚拟道路上进行驾驶,并反复重现碰撞场景,就能获得所需数据,既快速又低成本。


还可以有意识地补充真实数据中稀缺的特定场景或罕见案例,从而弥补数据空白;在矫正数据偏差、平衡样本分布方面也有帮助。


保护隐私同样是合成数据的一大优势。无需直接使用真实个人信息,也能用具有相似特征的数据来训练人工智能。例如,可以基于真实病历生成虚拟患者数据,或分析真实交易记录后生成具有类似模式的虚拟交易数据。

遗传病折磨下的人工智能 [AI错误笔记] View original image

据全球市场调研机构高德纳(Gartner)预测,到2030年前后,用于人工智能训练的合成数据将会超过真实数据的使用量。高德纳还预计,“如果没有合成数据,将无法开发出高性能、高质量的人工智能。”


由Elon Musk创立的人工智能初创公司xAI上个月发布了人工智能聊天机器人“Grok 3”。xAI在当天通过直播的发布会上宣称,“Grok 3在数学、科学、编程基准测试中超越了Alphabet旗下的Google Gemini、Anthropic的Claude以及OpenAI的GPT-4o。”


其出色的性能足以引发关注。Musk表示,“Grok 3的算力是前一版本的10倍以上”,并称其为“地球上最聪明的人工智能”。xAI研究团队解释称,“Grok 3通过大规模合成数据集、自我纠错以及强化学习,比Grok 2能够给出更精细的结果。”该公司于2023年7月成立,当年11月首次发布“Grok”,去年8月推出“Grok 2”,距今不过半年时间。


能在如此短时间内打造出性能强大的人工智能,其中一个秘诀正是xAI研究团队此前提到的“合成数据”。


指向Grok的问号:合成数据的风险
设计师 Martin Dízli 以“哈布斯堡 AI”为主题生成的肖像图像。Martin Dízli Instagram供图

设计师 Martin Dízli 以“哈布斯堡 AI”为主题生成的肖像图像。Martin Dízli Instagram供图

View original image

然而,Grok 3也立刻遭遇了批评。虽然性能优异,但正是让Grok 3变得强大的那项优势——合成数据,同时也可能成为它的毒药。


英国牛津大学研究团队在去年6月发表于国际学术期刊《自然》的论文中指出,使用非人类、而是由人工智能生成的数据来训练人工智能,其性能可能会急剧下降。研究人员首先利用一个人工智能模型生成了关于14世纪英国教堂塔楼和建筑物的文本信息,随后再以此为基础诱导模型给出新的回答,如此反复进行反馈循环。随着这一过程不断重复,人工智能开始给出莫名其妙的结果:关于中世纪建筑的内容逐渐消失,不仅在未被要求的情况下用外语作答,甚至还无端讲起兔子的故事。


研究团队将这一现象概念化为“模型崩塌(models collapse)”。也就是说,如果让人工智能反复以自己生成的信息为素材进行学习,其输出结果的价值会不断退化。澳大利亚莫纳什大学的数据科学家Jason Sadowski干脆将其命名为“哈布斯堡AI”,以比喻哈布斯堡家族因持续近亲繁殖而丧失遗传多样性、最终走向衰亡的过程。


围绕合成数据还有另一类潜在风险:不仅无法中和数据中原有的偏见,反而可能将其放大。利用合成数据训练的人工智能模型,可能会原封不动地复制甚至强化既有数据的偏见。《金融时报》(Financial Times)评论称,这正是大型科技公司为了获取人类生成的数据而投入巨额资金的原因。


数据枯竭难以避免……关键在于找到最佳数据配比
遗传病折磨下的人工智能 [AI错误笔记] View original image

尽管存在上述风险,合成数据仍将是人工智能开发中的重要工具。人工智能行业专家在认识到合成数据风险的同时,并未否定其应用价值。他们强调,应当合理混合真实数据与合成数据,并严格管理合成数据的生成流程与质量。


在前文提到的牛津大学研究团队论文中,也可以看到类似的结论:当在合成数据中掺入少量人类生成的数据时,人工智能模型发生崩塌的比例有所下降。研究显示,即便只包含10%的人类数据,模型崩塌的进程也明显放缓。


此外,人类生成数据的总量正在逐步枯竭这一现实也不容忽视。OpenAI联合创始人Ilya Sutskever去年在加拿大温哥华的一场演讲中,将用于人工智能模型训练的数据比作“有限的化石燃料”,并表示,“目前互联网上有助于提升人工智能性能的数据已经几乎被消耗殆尽。”



正因为“人工智能遗传病”可怕,却又无法因噎废食,将合成数据一概视为禁忌。我们需要清醒地认识到:合成数据无法完全取代人类生成的真实数据,其自身存在明确的边界与局限。在此基础上,以平衡的视角看待其风险与潜力,才是当下真正需要的态度。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点