[Tech Talk]升级版ChatGPT反而变笨了？

by Lim Juhyeong

Published 30 Jul.2023 08:00(KST)

Updated 20 Dec.2023 10:39(KST)

open/close

“回答质量下降了” 业内不满涌现
相比3个月前数学、编程回复质量下滑
有观点称或因AI模型结构发生变更

今年年初，掀起生成式人工智能（AI）热潮的OpenAI“ChatGPT”，在进行大规模升级后，反而被质疑不准确回答的频率有所上升。虽然这一点尚未得到明确证实，但连学界都为之震动，预计影响将十分巨大。

ChatGPT [图片由韩联社提供]

ChatGPT是基于OpenAI的大型语言生成模型（Large Language Model，LLM）“GPT”系列开发而成。目前在OpenAI官网可以免费使用的ChatGPT采用的是“GPT-3.5”，而在付费订阅后才能使用的ChatGPT高级版则采用了性能大幅改良的“GPT-4.0”。

然而，自从引入GPT-4.0之后，关于ChatGPT反而“变笨了”的主张持续出现。今年5月，美国元宇宙平台“Roblox”开发者Peter Yang就在推特上指出：“升级之后，ChatGPT的响应速度确实更快了，但回答质量却更差了。”

此前，OpenAI方面对这类说法予以正面反驳，称“ChatGPT反而变得更聪明了”。不过其解释称，“由于用户数量爆炸式激增，以前不容易暴露的问题现在更频繁地被发现而已”。

美国知名平台企业 Roblox 的产品负责人 Peter Yang 介绍了有关 ChatGPT 性能下降的论文内容。图片由Twitter提供

不过，相关争议目前仍在持续。甚至美国斯坦福大学计算机科学研究团队近日还对ChatGPT的回答数据进行了分析，并发表研究论文，试图评估其实际性能下降到了何种程度。

在该论文中，研究团队判断称：“在数学问题求解、代码生成、视觉推理等4个领域，相比3月版本整体功能有所下降。”不过，这篇论文尚未经过同行评议（peer review，即由同一领域专家进行评估以验证论文的过程），因此直接照单全收仍有一定难度。

判断AI的“智能”水平本身就是一件非常困难的事，因为目前还没有能够衡量AI模型实际性能的统一指标。当前AI业界正尝试通过构建由各类问题和任务组成的数据集，开发“AI性能基准测试”，但尚未出现可以作为行业标准的测试方案。

然而，将“ChatGPT的回答质量相比过去有所下降”的主张一概视为虚假，也并不容易。包括实际开发者在内的众多用户都在表达不满，而且ChatGPT的使用率自上个月起环比下降了9.7%，呈现下行曲线。

有猜测认为，OpenAI 可能已经对构成ChatGPT的人工智能模型结构进行了激进性的变更。

如果ChatGPT确实比3个月前“更笨”了，原因又是什么呢？这同样是个难题。尽管机器学习技术发展迅速，但学界至今仍不清楚计算机智能究竟是“如何”产生洞见的。支撑ChatGPT的深度学习技术仍有大量部分处于“黑箱”状态，因此很难准确找出哪些环节导致了性能下降。

部分专家推测，OpenAI可能对构成ChatGPT的模型进行了激进的结构调整。也就是说，在GPT-3.5之前，ChatGPT是基于一个巨大的单一语言模型构建的。

但从GPT-4.0开始，OpenAI可能改为将多个只针对特定专业知识进行集中训练的小型语言模型组合在一起，使其像一个整体AI那样运行。这种方法被称为“专家混合（Mixture of Experts，MOE）”。

如果ChatGPT确实从巨型模型转向了MOE，那么其响应速度比过去更快这一现象就可以得到解释。不过，由于负责回答单个问题的模型规模变小，其实际推理能力可能因此有所下降。

OpenAI将其自家人工智能产品模型相关的大部分信息视为机密。 [图片来源=联合新闻社提供]

然而，这些解释终究只是学界部分人士提出的推测而已。造成这种混乱的一个原因，是OpenAI几乎没有公开与ChatGPT所用实际AI模型相关的具体信息。

美国非营利AI研究机构“艾伦人工智能研究所”首席执行官（CEO）Oren Etzioni在接受美国媒体《Insider》采访时谈到ChatGPT转向MOE模型的可能性，表示这是“相当准确的推测”，但同时也称“无法确定”。

Etzioni在谈到MOE方法时表示，这是“提高响应速度、以更低成本运行AI的一种方式”，并强调这种方式并不会必然降低性能。不过，他补充称，在OpenAI将ChatGPT改为MOE的过程中，可能牺牲了部分质量。

围绕ChatGPT性能下降的争议，也正在成为AI商业领域的新焦点。目前，OpenAI向企业或个人收取订阅费，提供ChatGPT高级服务，或以付费方式授权使用应用程序编程接口（Application Programming Interface，API）。

但如果AI性能会因企业的运营能力而大幅下降，对消费者而言就可能是重大损失。为保障AI产品的性能，未来或许会出现要求企业进行更透明信息披露的呼声。

本报道由人工智能(AI)翻译技术生成。