生成式AI模型性能评估
开发“BigGen Bench”获最佳论文奖
评估者角色开源工具同步公开

LG AI研究院在自然语言处理(NLP)领域全球最高权威学会之一的北美计算语言学协会(NAACL)2025上获得了“最佳论文奖”。


LG AI研究院表示,继去年在NAACL 2024上就通过分析人工智能(AI)模型的文化偏见来探讨AI系统的稳定性及公平性这一主题发表的研究论文获得“社会影响力奖”之后,今年又凭借一篇评估生成式AI模型性能的基准测试研究论文荣获最佳论文奖。


LG AI研究院于30日表示,在NAACL 2025录用的1400余篇论文中,仅有一篇获选并授予最佳论文奖,该研究院获得此奖,证明了韩国在AI技术方面的竞争力。最佳论文奖会在自然语言处理领域中,针对提出新研究方向或解决重要问题、并被评为当年最具创新性和重要性的研究进行遴选。


论文第一作者、卡内基梅隆大学博士课程研究生Kim Seungwon在LG AI研究院超智能实验室实习期间,与LG AI研究院超智能实验室负责人Lee Muntae、数据小组负责人Lee Gyeongjae,以及韩国科学技术院(KAIST)教授Seo Minjun研究团队共同开发了用于评估生成式AI模型性能的“BigGen Bench”,并凭借该成果获得最佳论文奖。


Bigzen Benchmark 的核心能力,LG 人工智能研究院提供

Bigzen Benchmark 的核心能力,LG 人工智能研究院提供

View original image

此次由LG AI研究院和KAIST教授Seo Minjun研究团队主导的研究,汇集了延世大学、康奈尔大学、伊利诺伊大学、麻省理工学院(MIT)、华盛顿大学等多所高校研究人员共同参与。


以往对生成式AI模型的评估方式依赖“有用性”“无害性”等抽象概念指标,与人工评估结果之间存在差异,尤其难以衡量AI模型所具备的细分能力,这是其局限所在。


BigGen Bench将生成式AI模型应具备的核心能力分为9大类,包括▲指令执行 ▲逻辑推理 ▲工具使用能力 ▲安全性 ▲对多种语言和文化语境的理解能力等,并通过由765个条目构成的体系来评估其在77项细分角色上的表现。这是为了在使用和评估生成式AI模型时,模仿人类在评价过程中会考虑周边多样情境和主观因素的方式,从而得出与真实人工评估相近的结果。LG AI研究院利用BigGen Bench对103个生成式AI模型进行了评估,在与专家群体的交叉验证中表现出高度的信度和效度,确认了其作为新一代基准测试工具的潜力。


Lee Muntae实验室负责人表示:“BigGen Bench旨在能够对生成式AI的多种能力进行客观而综合的评估,具有克服既有基准测试局限、并符合人类精细评价标准以准确把握AI模型能力的优势。”Seo教授则强调:“BigGen Bench最大的优点在于,能够将人们在实际使用生成式AI模型时所感受到的实用性指标化。也就是说,在BigGen Bench上取得优异成绩,意味着该生成式AI模型在真实使用场景中也能展现令人满意的性能。”



LG AI研究院在研究过程中,还以开源形式公开了担任评估者角色的5个AI模型之一Prometheus-2。Prometheus-2在执行评估者角色时,与全球商用模型中性能最强的GPT-4相比差距不大,并展现出较高的评估可信度。LG AI研究院目前还在以BigGen Bench为基础,推进在生成式AI模型开发过程中自动评估各细分项目性能的后续研究。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点