席卷社交媒体的“AI机器人”…是崩塌前兆？[科技谈]

by Lim Juhyeong

Published 01 Dec.2024 14:00(KST)

开始占领社交媒体的AI机器人
互联网会变成清一色AI内容吗
对模型训练生态造成致命影响

近期，以X为代表的各类社交媒体平台已经充斥着由人工智能自动化运行的聊天机器人。这些机器人会涌向曝光度高的人气帖子，随机发表评论，并通过点赞、转发等方式，引导用户进行有助于提高浏览量的各类互动。

这类人工智能机器人很可能是为了获取广告收益而开设的账号。而且制作相对容易，因此在短时间内就大规模泛滥。眼下它们只会给用户带来一些小小的烦扰或不快，但也有警告认为，“人工智能机器人的泛滥”终有一天可能会助推互联网走向危机。

疑似由印度籍用户创建的社交网络服务（SNS）“聊天机器人账号”。X截图

如今，Facebook、Instagram、X等社交媒体平台，都采用将部分广告收益返还给人气账号的商业模式。账号在用户面前的曝光越多，获得的推荐或转发越多，收益也就越高。

不知从何时起，盯上这一模式的“人工智能机器人账号”开始大量涌现。做法是将ChatGPT等文本聊天机器人或图像生成器与账号联动，让系统自动生成评论、帖子等内容。迄今为止，这些账号制作粗糙，回复中也带有明显的“非人类”特征，人们很快就能看出是人工智能，但偶尔也会生成看上去像真人写的内容，从而引发热议。

所谓“模型崩塌”的例子。若只用人工智能（AI）生成的数据进行训练，模型产出的结果会逐渐崩坏到几乎难以辨认。Freethink 供图。

随着企业纷纷推出人工智能服务，“自动化内容生成工具”的泛滥几乎只是时间问题。然而，真正的问题在于，这种机器人的泛滥有可能让互联网，乃至人工智能本身走向崩溃。

今年8月，国际学术期刊《自然》发表了一篇探讨所谓“模型崩溃（Model collapse）”现象的论文，引发信息技术行业关注。所谓模型崩溃，是指只用非人类、即人工智能生成的数据来训练的神经网络模型，会逐渐变得不稳定，最终彻底退化到毫无用处的程度。

模型崩溃现象对计算机科学家和人工智能研究者而言，是一则令人不寒而栗的警告。为什么用人工智能自行生成的内容来训练人工智能，会导致模型崩溃，目前尚无定论。有学者推测，这有点类似生物的“近亲繁殖”，缺乏多样性的数据可能会让神经网络产生畸形。

随着人工智能模型呈指数级扩张，用于训练的数据量也在不断增加。由此一来，人类至今在互联网上留下的文本数据反而开始显得不足。如果在这种情况下，互联网只剩下人工智能机器人留下的“低质量”数据，人工智能企业就很难再为模型训练营造合适的环境。

另一个问题是，人工智能的发展本身正在减少人类之间的互动。以一项在去年发表的研究为例：在ChatGPT引入代码自动生成功能一年后，“Stackoverflow（开发者交流技术经验的海外网站）”的活跃度下降了16%。也就是说，与聊天机器人的交流在一定程度上替代了人与人之间的交流。

具有讽刺意味的是，聊天机器人在互联网内部越是取代人类角色，未来可供人工智能作为训练用的人类数据就会越快枯竭。最终，人工智能企业不得不花费更多时间，从散布在互联网各处的数据中精挑细选出高质量的“真正”人类数据，由此人工智能的发展步伐也会放缓。

用于人工智能训练的数据库存量推测。人类在网络上生产的数据正日渐减少。

当然，“模型崩溃”并非已经注定的未来。大型科技企业已经在开发各种工具，用于过滤人工智能生成的数据。以谷歌为例，谷歌强制要求在人工智能生成的图像中嵌入人眼无法识别的数字“水印”。这些带有水印的数据，日后会被排除在人工智能训练数据集之外。

与此同时，也有观点认为，提高人工智能模型的“多样性”可以防止模型崩溃。如前所述，人工智能模型的崩溃现象与生物的近亲繁殖问题有相似之处。只有用能够捕捉到类似人际互动那样多样化模式的高质量数据进行学习，人工智能模型才能在一代代迭代中保持“健康”。

因此，即便未来由人工智能生成的合成数据在互联网上泛滥，如果这些数据分别由不同的人工智能模型生成，那么发生崩溃现象的可能性就会降低。

由此可见，为了提升人工智能技术对崩溃现象的“耐久性”，各国监管机构有必要对垄断问题采取更为严厉的应对措施。也就是说，不能只让少数大型科技公司的人工智能占据主导地位，而应通过促进竞争，让更多不同的人工智能模型得到广泛应用。

本报道由人工智能(AI)翻译技术生成。