LG人工智能研究院在北美计算语言学会获最佳论文奖

by Park Joonyi

Published 30 Apr.2025 10:00(KST)

生成式AI模型性能评估
开发“BigGen Bench”获最佳论文奖
评估者角色开源工具同步公开

LG AI研究院在自然语言处理（NLP）领域全球最高权威学会之一的北美计算语言学协会（NAACL）2025上获得了“最佳论文奖”。

LG AI研究院表示，继去年在NAACL 2024上就通过分析人工智能（AI）模型的文化偏见来探讨AI系统的稳定性及公平性这一主题发表的研究论文获得“社会影响力奖”之后，今年又凭借一篇评估生成式AI模型性能的基准测试研究论文荣获最佳论文奖。

LG AI研究院于30日表示，在NAACL 2025录用的1400余篇论文中，仅有一篇获选并授予最佳论文奖，该研究院获得此奖，证明了韩国在AI技术方面的竞争力。最佳论文奖会在自然语言处理领域中，针对提出新研究方向或解决重要问题、并被评为当年最具创新性和重要性的研究进行遴选。

论文第一作者、卡内基梅隆大学博士课程研究生Kim Seungwon在LG AI研究院超智能实验室实习期间，与LG AI研究院超智能实验室负责人Lee Muntae、数据小组负责人Lee Gyeongjae，以及韩国科学技术院（KAIST）教授Seo Minjun研究团队共同开发了用于评估生成式AI模型性能的“BigGen Bench”，并凭借该成果获得最佳论文奖。

Bigzen Benchmark 的核心能力，LG 人工智能研究院提供

此次由LG AI研究院和KAIST教授Seo Minjun研究团队主导的研究，汇集了延世大学、康奈尔大学、伊利诺伊大学、麻省理工学院（MIT）、华盛顿大学等多所高校研究人员共同参与。

以往对生成式AI模型的评估方式依赖“有用性”“无害性”等抽象概念指标，与人工评估结果之间存在差异，尤其难以衡量AI模型所具备的细分能力，这是其局限所在。

BigGen Bench将生成式AI模型应具备的核心能力分为9大类，包括▲指令执行 ▲逻辑推理 ▲工具使用能力 ▲安全性 ▲对多种语言和文化语境的理解能力等，并通过由765个条目构成的体系来评估其在77项细分角色上的表现。这是为了在使用和评估生成式AI模型时，模仿人类在评价过程中会考虑周边多样情境和主观因素的方式，从而得出与真实人工评估相近的结果。LG AI研究院利用BigGen Bench对103个生成式AI模型进行了评估，在与专家群体的交叉验证中表现出高度的信度和效度，确认了其作为新一代基准测试工具的潜力。

Lee Muntae实验室负责人表示：“BigGen Bench旨在能够对生成式AI的多种能力进行客观而综合的评估，具有克服既有基准测试局限、并符合人类精细评价标准以准确把握AI模型能力的优势。”Seo教授则强调：“BigGen Bench最大的优点在于，能够将人们在实际使用生成式AI模型时所感受到的实用性指标化。也就是说，在BigGen Bench上取得优异成绩，意味着该生成式AI模型在真实使用场景中也能展现令人满意的性能。”

必读新闻

“大多数民众并不想要的战争”……美国人为油价白白多花了60万亿韩元

LG AI研究院在研究过程中，还以开源形式公开了担任评估者角色的5个AI模型之一Prometheus-2。Prometheus-2在执行评估者角色时，与全球商用模型中性能最强的GPT-4相比差距不大，并展现出较高的评估可信度。LG AI研究院目前还在以BigGen Bench为基础，推进在生成式AI模型开发过程中自动评估各细分项目性能的后续研究。

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。