大企业与初创公司掀起本土AI群雄争霸
“寻找最优模型”——多样化模型规模并共享数据

从国内大型信息技术企业到初创公司,国内信息技术(IT)企业接连公开自主开发的大规模语言模型(LLM)。在人工智能“诸侯割据”的时代格局下,各家战略也日趋多元。头部企业侧重于不断“做大”模型体量,后发企业则以“小而高效”的人工智能切入细分市场。


国内初创公司开发小而高效的人工智能

人工智能软件(SW)企业Konan Technology于本月17日公开了自主开发的LLM“Konan LLM”。其参数规模按模型不同分为131亿和410亿。与OpenAI的GPT 3.5(1750亿)、Naver HyperCLOVA(2040亿)、LG Exaone 2.0(3000亿)相比要小得多。


本土AI战略多元化:精简规模、提升训练量 View original image

参数承担着学习和记忆信息的功能,规模越大,性能通常越好。一般将拥有数千亿参数的模型称为LLM,将拥有数十亿至数百亿参数的模型划为小型LLM。但参数数量并非越多越好。参数规模越大,就意味着需要越庞大的图形处理器(GPU)和电力等算力资源,成本也就越高。因此,各企业正致力于寻找成本效益更高的参数规模。主导LLM开发的Konan Technology常务Do Woncheol表示:“一旦扩大参数规模,运营成本就会成倍增加。必须在充分考虑客户运营成本的前提下,找出最优参数规模。”


以初创公司为中心,开发小型LLM的企业正在增多。Saltlux计划在今年9月公开小型LLM“Lucia GPT”,并以此为基础,提供金融、法律、专利等特定领域的人工智能定制服务。Skelter Labs将于今年下半年推出轻量化的“Vella LLM(暂名)”。凭借人工智能聊天机器人“Iluda”而为人所知的Scatter Lab正在开发小型LLM“Pingpong-1”。如果说通过Iluda 2.0推出了能够实现自然对话的小型LLM,那么Pingpong-1的特点则是可以实现逻辑性交互。


通过增加训练量提升性能……也推动数据“互助共享”

企业选择了在缩小模型规模的同时,通过增加训练量来提升性能的策略。Konan Technology让Konan LLM学习了比Meta的Llama 2多270倍的韩语数据,利用的是其自2007年开始运营的自有数据收集与分析平台“PulseK”。该平台共收集了来自咖啡馆、博客、推特(Twitter)、Instagram等渠道的205亿份文档。公司还叠加了自2011年起与新闻振兴财团正式签约购买的新闻数据。为确保只训练高质量数据,特意剔除了短文本推特或新闻评论等内容。


Upstage为开发自有LLM,甚至发起了“数据互助共享”。公司成立了“1T俱乐部”,正在招募愿意共享数据的合作伙伴。1T意为1万亿(Trillion)个标记(Token),相当于2亿本书的文本量。除Naver、Kakao等部分门户企业外,其他企业要独立持有以万亿标记计的数据并不容易,这也是Upstage发起“众筹式”数据收集的原因。共享数据的合作伙伴今后可以以更低价格使用Upstage开发的LLM,或分享其LLM业务所产生的收益。



大型企业也在拉开模型规模的梯度。NCSoft上周公开的语言模型“VARCO LLM”参数规模为13亿、64亿和130亿,主要面向个人和企业易于利用的中小型人工智能。公司计划在今年11月推出520亿参数模型,明年3月再推出1000亿参数模型。Kakao也在年底发布下一代模型前,对60亿、130亿、250亿、650亿等多种规模进行测试。Kakao代表Hong Euntaek表示:“与其说是谁先构建超大规模模型,不如说是谁能在成本合理的前提下打造适当规模的模型并将其应用到服务中,这才是竞争的关键。”斯坦福大学教授Andrew Ng也预测:“与其由某个特定模型一家独大,不如说将会有更多针对不同数据和应用场景进行优化的模型共同瓜分市场。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点