Kakao发布多模态与MoE模型…展示自研AI技术实力

by Kim Bokyung

Published 24 Jul.2025 09:33(KST)

Kakao于24日表示，公司以开源形式公开了轻量级多模态语言模型和专家混合（MoE，Mixture of Experts）模型，展现了自身在人工智能（AI）技术开发方面的实力。

Kakao当日通过Hugging Face开源了▲具备图像信息理解及指令执行能力的轻量级多模态语言模型“Kanana-1.5-v-3b”，以及▲MoE语言模型“Kanana-1.5-15.7b-a3b”。

参与政府“自主AI基础模型项目”的Kakao表示，将以自研模型开发能力以及KakaoTalk等大规模服务的运营经验为基础，提高全民对AI的可及性，并为强化国家AI竞争力作出贡献。

Kanana-1.5-v-3b是一款不仅能处理文本，还能处理图像信息的多模态语言模型，以今年5月末公开的Kanana 1.5模型为基础。Kanana 1.5自模型开发的起点到最后阶段，均以Kakao自有技术构建，采用“From Scratch（从零开始）”的开发方式完成。

基于多模态语言模型的优势，该模型可实现▲图像及文字识别 ▲童话与诗歌创作 ▲国内文化遗产及旅游景点识别 ▲图表理解 ▲数学解题等多种功能。例如，在上传地点照片的同时提问“请简单介绍一下这张照片拍摄的地点”，模型会回答“这张照片以首尔清溪川为背景”的方式进行应答。

Kakao公开的轻量级多模态语言模型场所识别能力示例。Kakao提供

MoE模型通过仅激活针对特定任务进行优化的部分专家模型，实现高效利用算力资源和节省成本，这是其主要优势。凭借这一优点，MoE已在全球市场成为AI模型开发的主流趋势之一。采用MoE架构的“Kanana-1.5-15.7b-a3b”在推理时，在总计157亿个参数中仅约30亿个参数被激活参与运算。

Kakao的MoE模型可为希望以低成本构建高性能AI基础设施的企业或研发人员提供切实帮助。尤其是由于在推理过程中仅使用受限数量参数的结构特性，有利于实现低成本、高效率的服务，因而具有较高的应用价值。

Kakao表示：“通过此次轻量级多模态语言模型和MoE模型的开源，我们将为AI模型生态提出新的标准，并计划为更多研究人员和开发者自由利用高效而强大的AI技术打下基础。”

本报道由人工智能(AI)翻译技术生成。