NC 推出 LLM 性能评估模型“VARCO Judge LLM”

by Kang Nahum

Published 23 Sep.2024 11:36(KST)

在全球学会上发表LLM评估模型论文…全球技术水准获印证

NCSoft于23日表示，已在国内首次推出用于验证大型语言模型（LLM）性能和执行能力的评估模型“VARCO Judge LLM”。

VARCO Judge LLM是一款用于检测其他大型语言模型在执行任务时速度和准确度的评估模型。近期，各企业为在市场上多种类型、不同规模的服务型大型语言模型中寻找适合自身的模型，正耗费大量时间。

使用该模型，可以更高效地验证适用于本公司人工智能服务的大型语言模型。也就是说，企业可以借助评估模型验证自家大型语言模型的性能水平，从而证明其相较于其他模型的性能优势，或快速查明短板并加以补强。

VARCO Judge LLM在解决大型语言模型偏见问题方面能力突出，并且具备优异的韩语处理性能，在同级模型中拥有最高水平的表现。尤其是NCSoft今年向享有全球权威的自然语言处理学会“EMNLP（Empirical Methods in Natural Language Processing，自然语言处理经验方法会议）”提交了大型语言模型评估模型论文，在全球舞台上也证明了其技术实力。

NCSoft作为国内游戏企业中首家开发自有语言模型的公司，正积极在游戏开发流程及公司内部整体工作效率提升方面运用人工智能技术。通过此次评估模型的发布，公司计划在提升自研大型语言模型VARCO质量的同时，在大型语言模型评估领域占据领先地位。