"LLM 평가 기준 다양…하나 기준으로 봐선 안 돼"

"산업 현장서 잘 쓸 수 있는 모델 만들 것"

SK텔레콤의 인공지능(AI) 부문을 이끄는 수장이 실제 산업 현장에서 쓸 수 있는 AI 모델 개발의 중요성을 강조했다. 벤치마크 위주의 AI 모델 평가에서 벗어나 실생활이나 산업 현장에서 성능을 낼 수 있는 모델 개발이 중요하다는 의미다.

정석근 SK텔레콤 최고기술책임자(CTO) 겸 AI 사내독립기업(CIC)장은 지난 3일(현지시간) 모바일월드콩그레스(MWC) 2026이 열리는 스페인 바르셀로나에서 열린 기자간담회에서 "과학기술정보통신부가 (LG AI연구원의) '엑사원'이 제일 좋다고 얘기했지만 실생활과 산업에서 쓰기에 가장 좋은 모델이라고 보이지는 않는다"면서 이같이 말했다.

정석근 SK텔레콤 최고기술책임자(CTO) 겸 AI 사내독립기업(CIC)장이 지난 3일(현지시간) 모바일월드콩그레스(MWC) 2026이 열리는 스페인 바르셀로나에서 열린 기자간담회에서 발언하고 있다. SK텔레콤 제공 AD 원본보기 아이콘

앞서 지난 1월 발표된 정부의 독자 AI 파운데이션 모델 프로젝트의 1차 평가에서 LG AI연구원의 엑사원은 벤치마크 평가 위주의 종합 점수에서 1위를 차지했다. 다만 구체적인 점수와 순위는 공개되지 않았다.

정 CTO는 벤치마크 등 수치화된 성능 평가 중심의 AI 모델 평가 체계를 두고 "거대언어모델(LLM) 성능을 평가하는 기준은 다양하다"면서 "현재는 벤치마크 스코어로 평가를 하고 있는데, 대입 입시에 정시와 수시가 있든 AI의 지능을 평가할 때 하나의 기준만 가지고 보는 것은 적절하지 않다"고 말했다. AI 모델을 평가하는 관점이 좀 더 다양해져야 한다는 취지의 발언이다.

그러면서 "그런 면에서 실제로 산업 현장에서 잘 쓸 수 있는 모델을 만드는 것에 집중하려고 한다"며 "정부에서도 그런 점을 고려한 평가 기준이 2단계 평가부터 고려됐으면 좋겠다고 생각한다"고 덧붙였다.

글로벌 빅테크들이 제작한 AI 모델과의 경쟁 속에서 현실적인 성능 전략을 세워야 한다고도 했다. 정 CTO는 "제미나이, 챗GPT, 클로드 같은 모델의 100% 수준을 만들려면 상당히 어려운 싸움이지만 95% 정도를 따라가자는 것은 가능한 얘기"라며 "특히 제조 현장에서는 그 정도(95% 수준의 성능)로도 풀 수 있는 문제들은 많다"고 말했다.

독자 파운데이션 모델 프로젝트 1차 평가 당시 불거졌던 AI 모델의 독자성 논란을 두고는 "AI 자체가 전략적인 가치가 있는 기술이 되고 있다"면서 "우리의 자체 역량을 가질 필요는 있다는 점에는 의문의 여지가 없을 것"이라고 했다.

SKT의 AI 서비스 '에이닷'의 유료화와 관련한 질문에는 "에이닷을 어떻게 해야 고객들이 기쁘게 돈을 내면서 쓸 수 있을지에 대한 사용 사례를 먼저 찾는 것이 핵심"이라며 "유료화 레벨의 성능을 낼 수 있을지를 두고 고민하고 있다"고 말했다.

바르셀로나(스페인)=이명환 기자 lifehwan@asiae.co.kr



