알파고 vs 이세돌 대국 계기로 인공지능 분야 연구 확대 전망
알파고가 세계 체스 챔피언을 꺾은 딥블루처럼 승리를 거머쥔다면? 우리는 앞으로 바둑을 컴퓨터에게 배워야할 지도 모른다.
8일 경기도 성남시 분당구 경기창조경제혁신센터 국제회의장에서 '성큼 다가온 인공지능'을 주제로 컨퍼런스가 열렸다. 이날 데이비드 실버 구글 딥마인드 리서치 사이언티스트는 알파고의 바둑 학습 방식에 대해 강연했다.
데이비드 실버 리서치 사이언티스트는 "딥블루가 인간에게 승리한 이후 많은 연구가 시작됐고 인공지능 분야 발전에도 많은 기여를 했다"며 "어떤 결과가 나오건 이번 대국을 계기로 AI 등 여러분야에서 연구가 시작될 것이라 생각한다"고 설명했다.
딥마인드는 지난해 5월부터 10월까지 본격적으로 알파고를 개발하기 시작했다. 그동안 알파고의 훈련시간은 약 3만시간(GPU상)이며, 10만회의 대국을 펼쳤다. 알파고는 초당 19만건의 경우의 수를 고려한다.
이세돌 9단의 대국횟수는 약 1만회, 트레이닝 시간은 3만시간에 달한다. 초당 고려하는 경우의 수는 100건 수준이다. 인간 바둑기사는 경험과 직관적인 판단을 통해 착수를 결정한다.
알파고도 인간처럼 수를 읽고, 형세를 판단한다. 알파고의 정책망은 다음 수를 어디에 두는 것이 가장 좋은지를 평가하고, 가치망이 위치별 판세를 평가한다. 불필요한 경우의 수를 버리고, 가장 승산있는 수를 찾는다.
알파고는 프로 기사들의 기보를 보면서 그들이 어떻게 돌을 두는지 배우는 '감독학습', 스스로 대국을 펼치며 시행착오를 거치는 '강화학습'을 토대로 실력을 키웠다.
데이비드 실버 사이언티스트는 "알파고는 전문 바둑기사의 과거 기보를 데이터베이스로 삼아 3000만개의 포지션을 추출했다"며 "사람의 움직임을 모방하도록 1차로 '감독학습'을 시킨 다음, 스스로 대국을 펼치면서 시행착오를 거치는 '강화학습'을 거쳤다"고 설명했다.
그는 알파고가 프로 기사 5단 이상의 기보를 모두 활용했지만, 특정 기사의 기보만으로 알파고의 바둑 스타일이 바뀌지 않는다고 설명했다.
데이비드 실버 사이언티스트는 "알파고가 기사 한명의 기보를 활용하기는 어렵다"며 "알파고에는 수십만건의 기보를 넣어야 하고, 소량으로는 알파고의 스타일을 바꾸기에는 충분하지 않다"고 설명했다.
그는 "알파고가 셀프대국을 통해 알파고에게 많은 발전을 했다"면서도 "아직까지 이세돌 등 전문기사들의 기력을 따라가진 못하지만 미지수가 많기 때문에 우리도 쉽게 승부를 예측할 수 없다"고 덧붙였다.
한진주 기자 truepearl@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>