KT发布自研模型“信任2.0”…政府自主AI项目也瞄准在内(综合)
4日于Hugging Face以开源形式发布
“深刻理解韩语与韩国文化”……专为B2B优化设计
提出“主权AI”标准……“将同步推进与微软合作”
KT于4日起将其自主开发的韩语特化大型语言模型(LLM)“믿:음 2.0”以开源形式公开,并表示将正式参与政府“自主人工智能(AI)基础模型”开发项目。外界解读为,KT在此前主要侧重与微软(Microsoft,MS)等全球大型科技企业合作的基调之上,开始加大对自主模型开发战略的投入权重。
3日,KT举行线上发布会表示:“我们将在HuggingFace上公开过去一年间以自有技术开发的믿음 2.0,供任何人使用”,并称“也已做好参与政府自主AI基础模型项目的准备”。
当天,Gen AI实验室负责人Shin Donghoon在发布中说明称:“KT从未有过中断自主开发”,“믿:음 2.0自主设计了最适配韩语的分词器,并重点围绕文档理解、报告撰写、基于文档的问答等在企业间交易(B2B)环境中利用度较高的功能进行开发”。
模型产品线除Mini、Base外,还将扩展至高性能Pro模型、推理模型、多模态模型等。他表示:“我们努力将具有韩国特色的语气与情感表达、历史视角、礼仪规范等也一并反映进去”,“这不仅仅是一个简单的生成式AI,而是一个兼具韩国价值与实用性的模型”。
Shin实验室负责人称:“从模型设计到训练全部由KT在无外部援助的情况下独立完成,因此我们自信它是主权AI的代表性模型。”他还强调了“RAI(Responsible AI,负责任的人工智能)”原则,即对已学习信息中与事实不符的内容进行校正或删除的技术。KT表示,在믿:음 2.0的全部开发过程中都应用了RAI治理体系。
支撑模型性能的是数据。KT基于自主收集的数据以及通过K-Data联盟获取的韩语数据,将其分为200余个类别进行分类、清洗并用于训练。对于有关版权争议的提问,KT回答称:“所有数据均通过购买或合作方式获取,对许可不明确、处于灰色地带的数据,已在训练中彻底排除。”
针对“既在开发基于MS和GPT的模型,又为何要单独开发믿음模型”的提问,KT给出的答案是:“并非所有任务都需要GPT水准的模型,我们将根据目的和使用环境,采取两种模型互为补充的提供策略。”说明称,基于GPT的模型适用于复杂推理或创作等需要高性能的任务,是“沉重而强大的模型”;相较之下,믿:음 2.0则被设计为更为轻量、对韩语和韩国文化有深度理解、基于国产技术且具备高性价比的实用型模型。
对于2023年曾将“믿음 7B”上传至HuggingFace后又转为非公开的前例是否会重演的问题,KT强调称:“此次公开是下定决心要通过开源切实为AI社区做出贡献”,“不是限时公开,而是计划持续进行高阶化”。
另一方面,K-Data联盟的具体参与企业名单及所获数据规模将于7月中旬追加发布。关于商业化与盈利模式、中长期投资计划等,KT也计划另行安排说明会进行介绍。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。