韩语与美中语言体系不同…韩文专用AI模型相继登场

by Lee Jungyun

Published 11 Dec.2024 10:04(KST)

AI企业公开韩语LLM开源模型

在英语、中文等特定语言占据主导的生态中，面向韩语的专用人工智能（AI）模型正相继问世。

据相关业界11日消息，人工智能基础设施解决方案企业More将自研韩语大型语言模型（LLM）“Motif”以开源形式发布在全球AI平台“Hugging Face”上。

Motif除利用从网站收集的文本外，还将国内专利、研究报告等专业领域文档作为学习数据。Motif在韩国版AI性能评估指标“KMMLU”中，截至本月3日获得64.74分，表现出比全球大型科技公司OpenAI、Meta更高的性能。

人工智能专业企业Dinotesia也表示，将自研LLM基础模型“DNA”以开源形式发布在Hugging Face上，同时启动生成式AI助手的测试版。

在KMMLU中，对人文、社会学、科学技术等进行评估的韩文、英文基准测试整体项目上，DNA的平均得分为53.26分。公司方面称，该成绩已超过LG“EXAONE 3.5”、NCSoft“VARCO”等模型。

业界评价认为，韩语特化AI模型竞争加剧，源于全球大型科技公司AI模型本身的局限。AI模型在正式学习之前，要经过掌握基础模式的预训练，以及将AI优化到特定领域的微调过程。在这一过程中所使用的数据大多基于英语、中文。据此，有观点担忧，使用开源AI模型的开发者及企业无法忽视英语、中文中心模型可能产生的翻译错误、文化差异等问题。

Naver推进“主权AI”战略，也是为了解决这类问题。Naver正与包括沙特阿拉伯在内，希望引入能够学习并反映本国文化等特征的AI模型的国家或企业推进合作。

还有观点认为，如果通过将AI模型开源，让全球开发者测试并利用韩语模型，从长远来看将有助于构建韩语特化AI生态。除自然语言外，能够识别图像，或专门面向法律、医疗等专业领域的韩语AI模型也已出现。韩语特化AI模型市场有望进一步活跃。

NCSoft公开了专注韩语处理的中小型开源视觉语言模型（VLM）“VARCO Vision”；OpenAI上月则通过与韩国产业银行签署为AI生态发展而设的业务合作协议（MOU），宣布将开发符合韩语语境的AI模型。More计划在本月推出输入文本即可生成图像的“Motif Vision”，并以开源形式公开。