从文本、图像到语音自始学习
目标是实现多领域AI智能体

Naver Cloud作为政府“自主人工智能基础模型”构建项目的一环,于29日将正在推进的“Omni基础模型”开发课题的首个成果以开源形式公开。公司计划通过这一基于HyperCLOVA X的模型,全面推动在日常生活和产业现场人人都可利用的人工智能代理实现。

能够结合理解文本与图像语境并生成结果的“原生全能模型 HyperCLOVA X SEED 8B Omni”。Naver Cloud提供

能够结合理解文本与图像语境并生成结果的“原生全能模型 HyperCLOVA X SEED 8B Omni”。Naver Cloud提供

View original image

Naver Cloud分别以开源形式公开了国内首个采用原生全模态结构的基础模型“原生全模态模型”,以及在既有推理型人工智能基础上进一步强化视觉、语音和工具使用能力的“高性能推理模型”。


原生全模态模型是在单一模型中,从一开始就同时学习文本、图像、音频等多种数据的模型。全模态人工智能因能够在语言与文字、视觉与语音信息复合交互的现实环境中发挥高利用价值,而备受关注,被视为下一代技术。基于这一特性,全球大型科技企业也将全模态视为下一代基础模型的核心技术支柱。


Naver Cloud的战略是,为了最大化全模态人工智能的潜力,将学习对象从既有的互联网文档或图像为中心,拓展到承载现实世界多样语境的数据获取上,并重点投入。


Naver Cloud技术总括Sung Nakho表示:“即便大规模扩展模型,如果数据多样性受限,人工智能的解决问题能力也只能集中体现在特定领域或特定科目上。因此,必须优先开展获取并清洗差异化现实世界数据的工作,例如尚未数字化的生活语境数据,以及反映各地区地理特性的空间数据等。”


图像生成与编辑,是通过同时理解文本与图像的语境,生成能够反映其含义的结果。例如,上传一张在户外手持相机的人的照片后,如果提出“请以照片形式画出这位拿着相机的人可能拍下的风景”之类请求,模型就会生成该人物通过相机镜头所看到的风景照片作为结果。

Naver Cloud 高性能推理模型 HyperCLOVA X SEED 32B Think 各领域基准测试得分。Naver Cloud 提供

Naver Cloud 高性能推理模型 HyperCLOVA X SEED 32B Think 各领域基准测试得分。Naver Cloud 提供

View original image

同时公开的“高性能推理模型”,将自研推理型人工智能与视觉理解、语音对话、工具使用能力相结合,实现了能够理解复杂输入和请求并解决问题的全模态代理体验。


该模型在全球人工智能评估机构“Artificial Analysis”以综合知识、高难度推理、编码、代理型任务等10项主要基准测试综合得出的指数标准中,被评估为与全球主要人工智能模型处于相似性能区间。


尤其在以韩语为基础的综合知识、视觉理解,以及实际运用工具解决问题的代理执行能力等主要能力项目上,与全球模型相比表现出色。


在解答今年大学修学能力考试试题的结果中,该模型在国语、数学、英语、韩国史等主要科目上均取得相当于1等级的成绩,其中英语和韩国史科目获得满分。公司方面补充称,与多数人工智能模型需要将题目转换为文本后再输入的方式不同,该模型可直接理解图像输入并解决问题,这一点构成了差异化优势。


Sung总括表示:“我们确认到,在水平拓展文本、视觉、语音等人工智能‘感官’的同时同步强化思考与推理能力时,现实问题的解决能力会大幅提升。我们认为,只有在具备这种基本功的结构之上逐步扩展规模,人工智能才能真正发展为有实际用途的技术,并将以此为基础持续推进规模化。”



Naver Cloud计划以本次模型为基础,在搜索、电商、内容、公共领域和产业现场等多个领域,分阶段扩展可加以应用的人工智能代理,加快构建实现“人人可用的人工智能”的技术生态系统。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点