“LLM评估标准应多元……不能只用一个标准衡量”
“要打造能在产业现场真正用得好的模型”

负责领导SK电讯 (SK텔레콤) 人工智能(AI)部门的负责人强调,应当重视能够在实际产业现场使用的AI模型开发。也就是说,应当摆脱以基准测试为主的AI模型评价方式,更加重视开发能在现实生活或产业现场发挥性能的模型。


SK电讯首席技术官(Chief Technology Officer, CTO)兼人工智能公司内部独立企业负责人 Jung Seokgeun 于当地时间本月3日在西班牙巴塞罗那举行的记者座谈会上(世界移动通信大会2026将在此举办)表示:“尽管科学技术信息通信部称(LG人工智能研究院的)‘EXAONE’是最好的,但在我看来,它并不是在现实生活和产业中最好用的模型。”

SK电讯首席技术官兼人工智能公司内部独立企业负责人 Jung Seokgeun 当地时间本月3日在西班牙巴塞罗那举行的记者座谈会上发言,世界移动通信大会2026将在此举办。SK电讯提供

SK电讯首席技术官兼人工智能公司内部独立企业负责人 Jung Seokgeun 当地时间本月3日在西班牙巴塞罗那举行的记者座谈会上发言,世界移动通信大会2026将在此举办。SK电讯提供

View original image

在今年1月公布的政府自主人工智能基础模型项目的一次评估中,LG人工智能研究院的EXAONE在以基准测试评价为主的综合得分中获得第一。不过,具体分数和名次并未对外公开。


Jung CTO就以基准测试等量化性能评价为中心的AI模型评价体系指出:“评估大语言模型(Large Language Model, LLM)性能的标准是多样的。当前主要是通过基准测试得分来进行评价,但就像大学入学考试既有统一招生也有自主招生一样,在评估AI智能时只用一个标准来看待,并不合适。”其言下之意是,评价AI模型的视角应当更加多元化。


他接着表示:“SK电讯今后将集中精力打造能在实际产业现场得到良好应用的模型。也希望政府在第二阶段评估起就能反映这类因素,将其纳入评价标准。”


他还表示,在与全球大型科技企业开发的AI模型竞争的过程中,也必须制定现实可行的性能策略。Jung CTO称:“如果要做出与Gemini、ChatGPT、Claude等模型达到100%同等水平的产品,将会是一场非常艰难的战斗,但若是以追赶到大约95%的水平为目标,则是可以实现的设想。尤其在制造现场,即便是这种(约95%性能水平)的模型,也能解决许多问题。”


对于自主基础模型项目第一次评估时曾引发的AI模型“自主性”争议,他表示:“AI本身正在成为具有战略价值的技术,对于我们来说,有必要拥有自己的自主能力,这一点应当毋庸置疑。”



针对有关SK电讯AI服务“A.Dot(에이닷)”收费化的提问,他表示:“关键在于,首先要找到一种使用场景,使得客户愿意愉快地付费使用A.Dot。我们正在思考的是,是否能够达到收费服务所要求的性能水平。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点