“请免费使用”……Meta 将 AI 语言模型开源的原因

by Jeong Hyunjin

Published 19 Jul.2023 17:00(KST)

“Llama 2”发布：“向开源迈进”
也有担忧假信息与垃圾内容泛滥的批评

“我相信，生态系统越开放，就越有可能取得更大的进展。这正是我们推出开源模型‘Llama 2’的原因。”——Meta Platforms首席执行官(CEO) Mark Zuckerberg

Meta于18日（当地时间）将大规模语言模型（LLM）Llama 2以开源形式公开。自去年11月OpenAI的ChatGPT向公众发布以来，全球掀起生成式人工智能热潮，微软（Microsoft）和谷歌为抢占主导权展开竞争。生成式人工智能训练的核心是大规模语言模型。与其他在大规模语言模型技术方面严守机密的企业不同，Meta将其迄今积累的技术实力以开源方式公开，以全新策略迎战。

图片由AP联合新闻提供

◆ “可用于商业用途” 其背后隐藏的Meta真实意图

Meta在今年2月首次发布“Llama”时就采用了开源战略。本次发布与上次不同之处在于：首次公开Llama时，即便技术开源，也禁止商业使用，而这一次则明确表示“可免费用于研究及商业用途”。Meta还宣称将与微软、亚马逊、高通、LG等其他企业携手合作。

与此同时，性能也得到进一步升级。Llama 2支持70亿至700亿参数版本，并使用2万亿个标记进行预训练。一次可处理的上下文长度为4096个标记，相较既有模型大幅提升。上下文长度越长，每次输入指令时可处理的信息量就越大。也就是说，在强化技术实力的同时，进一步放宽了该技术的应用领域。

对于Meta为何将由公司自身人力与资源全力开发的大规模语言模型以开源形式公开，CEO Mark Zuckerberg在其Facebook主页上强调称：“当软件公开时，会有更多人对其进行细致审视，从而识别并修复潜在问题。”他强调，这对整个产业而言具有积极意义。

Meta首席执行官Mark Zuckerberg 图片由美联社联合新闻提供

事实上，对Meta来说，外部程序员在利用开源大规模语言模型的过程中产生的问题等信息，可以被Meta回收并用于人工智能实验。

此外，在微软和谷歌等大型科技企业争相投入人工智能主导权竞争的局面下，Meta的开源战略似乎也蕴含着扩大推广自身技术的意图。《纽约时报》（The New York Times）将Meta的Llama 2比作谷歌过去将安卓操作系统开源的做法。当时为与苹果iPhone竞争，谷歌选择开源战略，最终使安卓得以成为核心智能手机操作系统。舆论认为，Meta试图以类似方式，从人工智能核心技术——大规模语言模型层面起就抢占主导权。

《麻省理工科技评论》（MIT Technology Review）评价称：“Meta通过将Llama 2开源，希望在与OpenAI等竞争对手的较量中取得优势。”

◆ “开源将导致虚假信息泛滥”的批评声不绝于耳

不过，Meta的开源战略也在人工智能业界遭到批评。在人工智能相关规制尚不完善、技术本身在社会和经济层面仍有大量难题亟待解决的情况下，有舆论认为，开源可能演变为更大的冲击。人们担心，利用开源技术制造垃圾信息、金融诈骗、虚假信息的现象会爆发式增长。

掀起生成式人工智能浪潮的OpenAI正是提出此类批评的代表性公司。OpenAI于2015年以“必须防止某一特定公司垄断人工智能技术”为由，以非营利组织形式创立，并表示将对公众公开技术，但最近其立场出现了变化。

图片由路透社联合新闻提供

OpenAI联合创始人兼首席科学家 Ilya Sutskever今年3月在接受信息技术专业媒体《The Verge》采访时，回顾公司曾表示要将技术开源一事，评价称这是“错误的”，并表示：“数年之内，人们将清楚地认识到，让所有人都以开源方式推出人工智能并非明智之举。”

Meta方面则表示，即便以开源形式公开Llama 2，其风险也并不大。《纽约时报》报道称，Meta管理层认为，即使不开源，虚假信息或仇恨言论泛滥的问题早已存在，而其他科技企业反而可以借此强化应对措施，以解决这些问题。

Meta还解释称，为解决相关问题，公司事先启动了“红队”进行问题排查和补强。所谓红队，是指站在黑客立场，对本公司或客户系统实施模拟攻击的组织。此外，Meta还制定并公开了单独的使用指南，以便开发者能够负责任地使用该模型。

不过，尽管Meta声称为透明度和产业发展将Llama 2以开源形式公开，但也被指未披露用于训练该模型的数据。Meta在发布Llama 2的同时公开了一份研究报告，对该模型进行了说明，其中仅将训练数据表述为“可公开使用的在线数据”。而在今年2月首次发布Llama时，报告中还以表格形式具体列出了所使用的数据类型，这次则不再如此。

美国财经媒体《Business Insider》指出，这种说明方式并不常见，因为在人工智能业界，通常会通过公开模型所使用的信息类型来判断其性能。