"세계 3대 AI 학회서 3편 동시 채택"…UNIST, 강화학습 경쟁력 입증

ICLR 1.9만편 중 27%만 통과…데이터 오류·장기 과업·다중 협력 문제 해법 제시

국내 연구진이 세계 최고 수준 인공지능(AI) 학회에서 논문 3편을 동시에 채택시키며 강화학습 분야 경쟁력을 입증했다. 울산과학기술원(UNIST)은 인공지능대학원 한승열 교수 연구팀의 논문 3편이 오는 23일 브라질 리우데자네이루에서 열리는 '표현학습국제학회(ICLR)'에 동시 채택됐다고 21일 밝혔다.


ICLR은 신경정보처리시스템학회, 국제머신러닝학회와 함께 세계 3대 AI 학회로 꼽힌다. 올해는 전 세계에서 약 1만9000편의 논문이 제출돼 이 중 약 27%만이 통과했다. 단일 연구실에서 3편이 동시에 채택된 사례는 드물다.

연구진 사진. 좌측부터 한승열 교수와 각 연구의 제1저자인 이상현 연구원, 황재박 연구원, 조용현 연구원. UNIST 제공

연구진 사진. 좌측부터 한승열 교수와 각 연구의 제1저자인 이상현 연구원, 황재박 연구원, 조용현 연구원. UNIST 제공


데이터 오류·장기 과업·협력 문제까지…강화학습 한계 넘었다


이번 성과는 모두 강화학습 분야에서 나왔다. 강화학습은 AI가 환경과 상호작용하며 시행착오를 통해 최적 행동을 학습하는 방식으로, 로봇·자율주행 등 물리 환경에서 작동하는 '피지컬 AI'의 핵심 기술이다.

연구팀은 먼저 산업 현장에서 수집한 오프라인 데이터만으로도 높은 성능을 내는 '자기 개선 스킬 학습(SISL)' 기법을 제시했다. 데이터에 오류가 섞여 있어도 유용한 행동 패턴을 스스로 찾아내고 노이즈를 제거해 안정적인 학습이 가능하다.


복잡한 장기 과업에서 발생하는 비효율도 해결했다. 기존 강화학습은 목표를 여러 단계로 나눌 때 도달 불가능한 중간 목표를 선택해 학습이 지연되는 문제가 있었다. 연구팀은 도달 가능한 목표만 선택하도록 하는 '엄격한 하위 목표 실행(SSE)' 기법을 통해 학습 성공률과 속도를 동시에 개선했다.


여러 AI가 협력해야 하는 환경에서의 한계도 보완했다. 다중 에이전트 환경에서는 상황 변화에 따라 최적 행동이 달라지지만, 기존 알고리즘은 하나의 해법에만 의존하는 문제가 있었다. 연구팀은 여러 대안적 행동 가치를 동시에 평가하는 '연속적 하위 가치 Q-러닝(S2Q)'을 제안해 협력 환경에서도 유연한 의사결정을 가능하게 했다.

이상현, 황재박, 조용현 연구원이 각 연구의 제1저자로 참여했다. 한승열 교수는 "제한된 데이터와 불확실한 환경에서도 강화학습을 안정적으로 적용할 수 있는 가능성을 확인했다"며 "자율주행, 로봇, 스마트 제조 등 다양한 산업 분야로 확장이 기대된다"고 말했다.





김종화 기자 justin@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>