Naver发布“Omni Model”……能生成理解语境的图像，成绩相当于高考1等级

by Kim Bokyung

Published 29 Dec.2025 10:00(KST)

从文本、图像到语音自始学习
目标是实现多领域AI智能体

Naver Cloud作为政府“自主人工智能基础模型”构建项目的一环，于29日将正在推进的“Omni基础模型”开发课题的首个成果以开源形式公开。公司计划通过这一基于HyperCLOVA X的模型，全面推动在日常生活和产业现场人人都可利用的人工智能代理实现。

能够结合理解文本与图像语境并生成结果的“原生全能模型 HyperCLOVA X SEED 8B Omni”。Naver Cloud提供

Naver Cloud分别以开源形式公开了国内首个采用原生全模态结构的基础模型“原生全模态模型”，以及在既有推理型人工智能基础上进一步强化视觉、语音和工具使用能力的“高性能推理模型”。

原生全模态模型是在单一模型中，从一开始就同时学习文本、图像、音频等多种数据的模型。全模态人工智能因能够在语言与文字、视觉与语音信息复合交互的现实环境中发挥高利用价值，而备受关注，被视为下一代技术。基于这一特性，全球大型科技企业也将全模态视为下一代基础模型的核心技术支柱。

Naver Cloud的战略是，为了最大化全模态人工智能的潜力，将学习对象从既有的互联网文档或图像为中心，拓展到承载现实世界多样语境的数据获取上，并重点投入。

Naver Cloud技术总括Sung Nakho表示：“即便大规模扩展模型，如果数据多样性受限，人工智能的解决问题能力也只能集中体现在特定领域或特定科目上。因此，必须优先开展获取并清洗差异化现实世界数据的工作，例如尚未数字化的生活语境数据，以及反映各地区地理特性的空间数据等。”

图像生成与编辑，是通过同时理解文本与图像的语境，生成能够反映其含义的结果。例如，上传一张在户外手持相机的人的照片后，如果提出“请以照片形式画出这位拿着相机的人可能拍下的风景”之类请求，模型就会生成该人物通过相机镜头所看到的风景照片作为结果。

Naver Cloud 高性能推理模型 HyperCLOVA X SEED 32B Think 各领域基准测试得分。Naver Cloud 提供

同时公开的“高性能推理模型”，将自研推理型人工智能与视觉理解、语音对话、工具使用能力相结合，实现了能够理解复杂输入和请求并解决问题的全模态代理体验。

该模型在全球人工智能评估机构“Artificial Analysis”以综合知识、高难度推理、编码、代理型任务等10项主要基准测试综合得出的指数标准中，被评估为与全球主要人工智能模型处于相似性能区间。

尤其在以韩语为基础的综合知识、视觉理解，以及实际运用工具解决问题的代理执行能力等主要能力项目上，与全球模型相比表现出色。

在解答今年大学修学能力考试试题的结果中，该模型在国语、数学、英语、韩国史等主要科目上均取得相当于1等级的成绩，其中英语和韩国史科目获得满分。公司方面补充称，与多数人工智能模型需要将题目转换为文本后再输入的方式不同，该模型可直接理解图像输入并解决问题，这一点构成了差异化优势。

Sung总括表示：“我们确认到，在水平拓展文本、视觉、语音等人工智能‘感官’的同时同步强化思考与推理能力时，现实问题的解决能力会大幅提升。我们认为，只有在具备这种基本功的结构之上逐步扩展规模，人工智能才能真正发展为有实际用途的技术，并将以此为基础持续推进规模化。”

Naver Cloud计划以本次模型为基础，在搜索、电商、内容、公共领域和产业现场等多个领域，分阶段扩展可加以应用的人工智能代理，加快构建实现“人人可用的人工智能”的技术生态系统。

本报道由人工智能(AI)翻译技术生成。