贴合真实工作环境的2485项细分指标构成
最多支持5个模型同时对比·覆盖12种语言
数据与排行榜在全球开源平台全面公开
三星电子于25日公开了全新的评估指标“TRUEBench”,可用量化数据确认人工智能(AI)在实际工作中究竟有多大帮助。
TRUEBench是三星电子DX部门前瞻性研发组织三星研究院,基于公司内部积累的生成式AI应用经验制定的评估标准。以往评估多停留在以英语为主的简单问答层面,而TRUEBench则反映真实办公环境,被设计用于衡量文档摘要、翻译、数据分析、连续对话等多种实际业务。其共由10个类别、46项业务、2485个细分项目构成。
三星电子表示,TRUEBench一次最多可对比5个模型,不仅公开回答的准确性,还公开回答长度和效率,从而实现更加精细的评估。目前支持包括英语和韩语在内的12种语言,如日语、中文、西班牙语等,并可验证不同语言混用时的交叉翻译性能。
此外,三星电子还在全球开源平台Hugging Face上公开了TRUEBench数据样本和排行榜。在评估过程中引入了由AI重新审查人工制定标准的交叉验证方式,以强化客观性和一致性。
三星研究院院长(DX部门首席技术官)Junghyun Jeon表示:“我们基于多样的真实应用案例,已经掌握了差异化的生产力AI技术竞争力和相关经验。通过公开TRUEBench,我们将提出全球生产力评估标准,并进一步强化技术领导力。”
本报道由人工智能(AI)翻译技术生成。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。