NC AI开源发布四款多模态模型“Barco-Vision 2.0”
NC AI于16日表示,将以开源形式公开基于韩语的多模态人工智能模型“VARCO-VISION 2.0”共4种版本。
VARCO-VISION 2.0是一款能够同时理解图像和文本并回答问题的人工智能模型。它可以同时分析多张图像,还能处理复杂的文档、表格和图表。该模型既能理解韩语也能理解英语,并在文本生成能力和对韩国文化的理解方面进行了强化。
此次以开源形式公开的4种模型为14B、1.7B、1.7B OCR以及视频嵌入模型。其中,14B和嵌入模型已于16日公开,1.7B和OCR(光学字符识别)模型计划于下周公开。
NC AI将与14B(140亿参数)模型一并提供1.7B(17亿参数)轻量级模型。14B模型针对需要复杂多图像分析和高度推理的环境进行了优化;1.7B轻量级模型则被设计为可在智能手机或个人电脑等个人设备上运行。
NC AI强调称,14B模型在英文图像理解、韩文图像理解、OCR基准测试等性能测试中,取得了优于InternVL3-14B、Ovis2-16B、Qwen2.5-VL7B等同级多模态模型的成绩。
同时还将公开专门用于识别图像中文字的光学字符识别特化模型“VARCO-VISION-1.7B-OCR”。与以往OCR模型不同,该模型采用了在视觉与语言信息上同时进行学习的视觉语言模型(VLM)方法。
多模态嵌入模型“VARCO-VISION Embedding”则在高维嵌入空间中计算文本、图像与视频之间的相似度。所谓嵌入,是指将影像内容转换为数值并加以存储;基于不同嵌入之间的距离或相似度,可以检索到相关性较高的图像或视频。
NC AI表示,此次公开的4种模型可广泛应用于金融、教育、文化、购物、制造等多个领域。
NC AI计划通过此次公开4种多模态人工智能模型,为政府推进的“主权人工智能”强化战略助力。NC AI代表Lee Yeonsu表示:“随着技术高度化,全球趋势正从只处理文本的语言模型,转向同时利用视觉模型的视觉语言模型。通过此次4种模型的公开,我们确认了NC AI在媒体、游戏、时尚等垂直领域人工智能方面引领国内多模态人工智能的同时,在视觉语言模型领域也具备维护韩国主权的可能性。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。