[科技Talk]为何谷歌称自己没有“AI 护城河”

by Lim Juhyeong

Published 20 May.2023 18:00(KST)

谷歌、OpenAI等推行“封闭式AI”策略
隐瞒训练方法谋求技术优势
开源阵营借势崛起反击
社区或将压倒大科技公司

“我们没有‘护城河’（moat），OpenAI也没有。令人不安的真相是，在这场人工智能竞争中最终获胜的公司既不是我们，也不是OpenAI。正在崛起的第三股势力名叫‘开源’。”

这是本月4日（当地时间）美国半导体分析机构“Semianalysis”曝光的谷歌内部消息内容。所谓“护城河”，是指足以让一家企业长期保持巨大领先优势的关键技术实力。谷歌人工智能（AI）技术人员等于坦承，未来AI产业的主导权并不掌握在他们手中。

这则消息把有望超越谷歌和开发出ChatGPT的OpenAI的“第三势力”指向了“开源”。开源是一种战略，即将与AI模型相关的全部信息免费公开，引导用户在此基础上自由开发。那么，为何谷歌开发者会对开源AI如此戒备呢？

训练诀窍就是AI技术本身……大科技公司以“商业机密”严加遮掩

Sam Altman OpenAI首席执行官 [图片来源=EPA韩联社供图]

构建并运行神经网络AI，大致可以分为“训练”和“推理”两个阶段。训练是用海量数据集对AI进行学习的过程；而推理则是基于训练完成的AI来执行各种任务的过程。

OpenAI、谷歌以及谷歌旗下AI专业研究公司“DeepMind”等知名AI企业，在训练和推理两个领域都拥有顶尖技术实力。其中，用来衡量AI企业技术高低的关键在于训练。

仅仅打造一个规模庞大的神经网络AI并没有太大意义。因为AI的性能会因“训练得好不好”而出现天壤之别。

分水岭就在这里，AI企业之间的“真本事”由此拉开差距。严格来说，AI训练与其说是科学，不如说更接近一门手艺。如何为AI构建训练用数据集、训练要重复多少轮（业内称为“epoch”）等，都会成为决定AI在训练结束后性能的变量。

无论模型多么庞大，如果数据质量低下，就只能产出糟糕的结果；训练轮次太少不行，甚至训练过度也会把AI“练坏”。除此之外，训练过程中的各种要素都会影响AI的“成长”。打造高质量AI的方式，是在不断试错的过程中分析性能变化，一步一个台阶地稳步前进。

正因如此，当前的AI企业对于将模型向外“公开”极度排斥。原因在于，它们在训练AI过程中积累的所有试错经验，本身就是只属于自己的诀窍和技术实力。最初以AI研究非营利机构起家的OpenAI，近来也转向了“封闭战略”。这很大程度上是出于担忧竞争对手抄袭其独家诀窍。

以开源“公开战略”对抗大科技公司的“封闭战略”

由 Stablility AI 开发的图像生成式人工智能“Stable Diffusion”是开源人工智能模型的代表之一。 [图片来源=Stable Diffusion 提供]

具有讽刺意味的是，这种“封闭战略”反而有被另一类奉行极端“公开战略”的AI赶超的风险。典型代表就是开源：从一开始就把模型的构成要素、细致的架构以及训练方式全部公开。

曾被认为略逊于谷歌、OpenAI的Meta AI，就是凭借开源战略实现急速追赶的案例。通过将大型语言生成模型Llama以开源方式开放，取得了快速进展。英国知名AI初创公司“Stability AI”同样通过奉行开源战略不断提升模型性能。

开源的优势在于能够形成“用户社区”。用户会根据自身需求对开源模型进行修改或改进，并将自己的改进方法分享给他人。通过这种方式，开源AI的性能提升可以获得强大动力。

AI产业特有的“文化”也可能为开源发展“火上浇油”。今年1月，谷歌Brain出身的AI研究员David Ha在接受英国周刊《经济学人》（The Economist）采访时指出：“目前没有任何一家大科技公司敢自称是AI技术的领跑者，原因在于实验室里的研究文化”，“所有机器学习研究人员都混在一起活动”。

也就是说，从大科技公司到初创企业，AI研究人员之间已经形成了一种暗中共享经验和诀窍的文化。这是因为AI产业本身仍处于初期阶段，大量人才在多家企业之间轮流受雇所致。