三星电子发布AI工作能力评估指标“TrueBench”

by Park Soyeon

Published 25 Sep.2025 08:18(KST)

贴合真实工作环境的2485项细分指标构成
最多支持5个模型同时对比·覆盖12种语言
数据与排行榜在全球开源平台全面公开

三星电子于25日公开了全新的评估指标“TRUEBench”，可用量化数据确认人工智能（AI）在实际工作中究竟有多大帮助。

TRUEBench是三星电子DX部门前瞻性研发组织三星研究院，基于公司内部积累的生成式AI应用经验制定的评估标准。以往评估多停留在以英语为主的简单问答层面，而TRUEBench则反映真实办公环境，被设计用于衡量文档摘要、翻译、数据分析、连续对话等多种实际业务。其共由10个类别、46项业务、2485个细分项目构成。

三星电子表示，TRUEBench一次最多可对比5个模型，不仅公开回答的准确性，还公开回答长度和效率，从而实现更加精细的评估。目前支持包括英语和韩语在内的12种语言，如日语、中文、西班牙语等，并可验证不同语言混用时的交叉翻译性能。

此外，三星电子还在全球开源平台Hugging Face上公开了TRUEBench数据样本和排行榜。在评估过程中引入了由AI重新审查人工制定标准的交叉验证方式，以强化客观性和一致性。