Naver HyperCLOVA X在韩国性能评测中超越ChatGPT
Naver Cloud表示,其超大规模人工智能“HyperCLOVA X”在韩国版人工智能(AI)性能评估体系“KMMLU(Measuring Massive Multitask Language Understanding in Korean)”中,取得了高于OpenAI和谷歌生成式AI的分数。
KMMLU是由国内代表性的开源语言模型研究团队“HAE-RAE”主导构建的AI性能评估指标项目。该体系由3万5030道试题组成,围绕人文、社会学、科学·技术等45个领域考察专家水准的知识。其中,约80%为考察数学推理能力等可在全球范围通用的广泛知识,20%为评估朝鲜半岛地理、国内法等韩国本土化问题解决能力的题目,从而均衡测量AI的通用能力和本地知识。有观点认为,该体系可以综合判断对韩国用户真正有用的AI。
过去,北美科技企业如OpenAI、谷歌等为了检验自家AI性能,主要使用“MMLU”这一指标,但若将其翻译成韩语使用,由于题目翻译不准确,以及多道题目内含仅英语国家才有的文化语境,难以准确评估AI模型的韩语能力,存在明显局限。KMMLU由韩语原文试题构成,因此可以更准确地评估国内外AI的韩语理解能力。
根据KMMLU研究论文,HyperCLOVA X取得了高于OpenAI“GPT-3.5 Turbo”和谷歌“Gemini Pro”的分数。在综合一般知识(General Knowledge)与韩国特化知识(Korea-Specific Knowledge)后的整体表现上,其水平足以与全球大型信息技术企业(Big Tech)的AI竞争。尤其是在韩国特化知识方面,得分甚至高于OpenAI的GPT-4。有分析指出,在教育、法律等本地信息重要性较高的产业领域,HyperCLOVA X的实用性更为突出。
Naver Cloud超大规模(Hyperscale)AI技术总负责人Sung Nakho表示:“HyperCLOVA X作为一种在全球通用知识基础上强化韩国特化问题解决能力的主权AI,凭借优异性能和强大安全性,正被广泛引入国内各产业领域。随着全球范围内对以本国语言为中心的AI需求不断显现,我们将以在韩国验证的主权AI竞争力为基础,加快进军全球市场的步伐。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。