Upstage与NIA开设韩语AI性能评估平台

by Choi Yuri

Published 25 Sep.2023 11:19(KST)

Upstage与韩国智能信息社会振兴院（NIA）携手打造一个可以评估和比较韩语大规模语言模型（LLM）性能的排行榜。

Upstage于25日表示，将与NIA共同主办韩语LLM排行榜“Open Ko-LLM Leaderboard”，并于本月27日上线。

Open Ko-LLM Leaderboard是一个任何人都可登记自己开发的韩语LLM模型并与其他模型竞争的公开平台。其并非简单翻译由Hugging Face运营的Open LLM Leaderboard的既有数据，而是自主构建了反映韩语特性和文化的高质量数据，因此具备“韩语特化排行榜”的优势。

平台新增了考察常识生成能力的“常识生成”指标，以便评估韩语LLM模型的高性能与多样性。“常识生成”数据集由Upstage与高丽大学Im Heeseok教授研究团队合作构建，题目涵盖历史歪曲、幻觉错误、形态素错误、不规则活用错误、仇恨言论等广泛类型。通过这一指标，测量人工智能（AI）生成的结果是否符合韩语使用者应当具备的一般常识。