[独家AI发布]“只读书的LLM”已成过去…Naver Cloud以“全模态”瞄准现场AX

by Park Eugenie

Published 30 Dec.2025 16:08(KST)

自主AI基础模型首场发布会
“突破文本局限”……全能多模态HyperCLOVA X亮相
高考主科达1等级……无需文本输入即可直接理解图片

Naver Cloud 超大规模人工智能技术总负责 Seong Nakho 30日在首尔 COEX 举行的科学技术信息通信部“自主人工智能基础模型”项目第一轮发布会上进行发表。照片=记者 Park Yujin

“大型语言模型（LLM）就像只通过读书学习而形成的大脑。它拥有大量知识，但从未亲眼见过世界、亲耳听过世界、亲手触摸过世界。”

Naver Cloud超大规模人工智能技术总括Sung Nakho于30日在首尔COEX举行的科学技术信息通信部“自主人工智能基础模型”项目第一阶段发布会上，如此解释现有LLM的局限性。也就是说，LLM在理解文本方面表现出色，但要解决现实世界的复杂问题，则缺乏“感官”。Naver Cloud当天推出的“全模态 HyperCLOVA X”正是从这一问题意识出发。

当天，Naver Cloud以开源形式公开了国内首个采用原生全模态结构的“HyperCLOVA X Seed 8B Omni”，以及将视觉、语音、工具使用能力与推理型人工智能相结合的“HyperCLOVA X Seed 32B Sync”，并表示“将正式推动在日常生活和产业现场人人都可利用的人工智能（AI）代理的实现”。所谓全模态，是指能够对音频、图像、视频等不同类型数据进行统一理解和生成的单一模型。

8B Omni即便信息形态不同，也能在同一语义空间中综合理解语境，因此在现实环境中，面对语音与文本、视觉与音频信息交织往来的场景，具有很高的应用价值，被视为备受瞩目的下一代技术。Naver Cloud强调称，全球大型科技企业同样将全模态视为下一代基础模型的核心支柱。

尤其是，Sung总括以产业现场中经常出现的图表处理为代表性案例进行说明。他表示：“以文本为基础的LLM无法直接识别图表，必须额外联动光学字符识别（OCR）等工具，在这一过程中会产生语义损失和额外构建成本。”相反，全模态“能够理解整幅图像，甚至把握有机的信息关系，因此可以降低开发和运营成本”。

Naver Cloud当天同时公开的32B Sync，在推理型人工智能基础上结合了视觉理解、语音对话和工具使用能力，实现了能够理解复合输入和请求并解决问题的全模态代理体验。Naver Cloud表示，在全球人工智能评估机构Artificial Analysis基于综合知识、高难度推理、编码、代理型任务等10个主要基准测试综合得出的指数标准上，32B Sync位于与全球主要人工智能模型相似的性能区间。其还补充称，特别是在以韩语为基础的综合知识、视觉理解、基于工具使用的代理执行能力等与实际使用密切相关的项目上展现出竞争力。

高考题目解答结果也一并公布。Naver Cloud表示，使用32B Sync解答今年大学学业能力考试试题时，在国语、数学、英语、韩国史等主要科目中全部取得相当于1等级的成绩，其中英语和韩国史更是获得满分。尤其被强调为差异点的是，模型无需将题目重新输入为文本，而是直接理解并解答通过拍照获得的题目图片。Sung总括称：“与规模大得多的模型相比，它具备类似的问题解决能力，但开发和运营成本却低得多，因此是一个性价比远高于对手的模型。”