Kakao公开AI语言模型性能评估数据集

by Choi Yuri

Published 27 Sep.2024 10:33(KST)

Updated 27 Sep.2024 14:14(KST)

open/close

Kakao称，已构建用于评估人工智能（AI）语言模型函数调用（Function Call）性能的数据集“FunctionChat-Bench”，并于27日以开源形式对外公开。

函数调用是将语言模型与应用程序接口（API）等外部工具连接起来，使AI语言模型能够指示其自身无法直接执行的操作，或实时获取未经过预训练的信息的技术。这是基于语言模型实现各类服务时的核心技术。例如，将具备函数调用功能的模型与地图等特定API连接后，模型即可调用实时道路信息并给出回答。

Kakao构建了“FunctionChat-Bench”数据集，可从多维度评估在韩语对话环境下的性能。以往的函数调用性能评估数据集大多由全球企业基于英语构建，而以韩语为基础构建相关数据集的，此次尚属Kakao首例。

该数据集由多项评估指标构成，包括：函数名称与参数抽取的准确性、函数调用结果传递的准确性、通过识别缺失信息而追加提问的情况、与可调用函数的相关性检测等。

为激活韩语AI语言模型生态并营造开放的AI环境，Kakao已在开源社区GitHub上公开该数据集。今后，公司还将扩大该数据集的规模，并增加英文版本等，持续提升其可用性。

Kakao Kakao Brain Alpha绩效负责人Kim Byeonghak表示：“FunctionChat-Bench数据集的构建和开源公开，对于以韩语为基础的国内AI技术生态具有重要意义。我们首次为函数调用技术的性能评估奠定了基础，今后将努力提升该数据集的应用价值。”

本报道由人工智能(AI)翻译技术生成。