NC AI开源发布四款多模态模型“Barco-Vision 2.0”

by Lee Myeonghwan

Published 16 Jul.2025 09:23(KST)

Updated 16 Jul.2025 10:02(KST)

open/close

NC AI于16日表示，将以开源形式公开基于韩语的多模态人工智能模型“VARCO-VISION 2.0”共4种版本。

VARCO-VISION 2.0是一款能够同时理解图像和文本并回答问题的人工智能模型。它可以同时分析多张图像，还能处理复杂的文档、表格和图表。该模型既能理解韩语也能理解英语，并在文本生成能力和对韩国文化的理解方面进行了强化。

NC AI 以韩语为基础开发的多模态人工智能模型 VARCO-VISION 2.0。NC AI 提供

此次以开源形式公开的4种模型为14B、1.7B、1.7B OCR以及视频嵌入模型。其中，14B和嵌入模型已于16日公开，1.7B和OCR（光学字符识别）模型计划于下周公开。

NC AI将与14B（140亿参数）模型一并提供1.7B（17亿参数）轻量级模型。14B模型针对需要复杂多图像分析和高度推理的环境进行了优化；1.7B轻量级模型则被设计为可在智能手机或个人电脑等个人设备上运行。

NC AI强调称，14B模型在英文图像理解、韩文图像理解、OCR基准测试等性能测试中，取得了优于InternVL3-14B、Ovis2-16B、Qwen2.5-VL7B等同级多模态模型的成绩。

同时还将公开专门用于识别图像中文字的光学字符识别特化模型“VARCO-VISION-1.7B-OCR”。与以往OCR模型不同，该模型采用了在视觉与语言信息上同时进行学习的视觉语言模型（VLM）方法。

多模态嵌入模型“VARCO-VISION Embedding”则在高维嵌入空间中计算文本、图像与视频之间的相似度。所谓嵌入，是指将影像内容转换为数值并加以存储；基于不同嵌入之间的距离或相似度，可以检索到相关性较高的图像或视频。

NC AI表示，此次公开的4种模型可广泛应用于金融、教育、文化、购物、制造等多个领域。

NC AI计划通过此次公开4种多模态人工智能模型，为政府推进的“主权人工智能”强化战略助力。NC AI代表Lee Yeonsu表示：“随着技术高度化，全球趋势正从只处理文本的语言模型，转向同时利用视觉模型的视觉语言模型。通过此次4种模型的公开，我们确认了NC AI在媒体、游戏、时尚等垂直领域人工智能方面引领国内多模态人工智能的同时，在视觉语言模型领域也具备维护韩国主权的可能性。”