과학

[알파고vs이세돌 D-1]"알파고 이기면, 바둑도 컴퓨터로 배우게 될 것"

한진주기자

입력2016.03.08 16:18

수정2016.03.08 16:25

시계아이콘읽는 시간1분 13초

닫기

스크랩 글자크기

글자크기 설정

가나다라
가나다라
가나다라

닫기

인쇄 RSS

데이비드 실버 "특정 기사 기보만으로 알파고 스타일 안 바뀐다"
알파고 vs 이세돌 대국 계기로 인공지능 분야 연구 확대 전망

데이비드 실버 구글 딥마인드 리서치 사이언티스트

[아시아경제 한진주 기자] "체스 챔피언이 딥블루에게 패배했을 때 체스계에서도 엄청난 충격이 있었다. 이제 체스를 기계에게 배우고 기량을 발전시킨다. 바둑계에서도 이와 같은 일이 일어날 수 있다. (데이비드 실버 구글 딥마인드 리서치 사이언티스트)

알파고가 세계 체스 챔피언을 꺾은 딥블루처럼 승리를 거머쥔다면? 우리는 앞으로 바둑을 컴퓨터에게 배워야할 지도 모른다.

8일 경기도 성남시 분당구 경기창조경제혁신센터 국제회의장에서 '성큼 다가온 인공지능'을 주제로 컨퍼런스가 열렸다. 이날 데이비드 실버 구글 딥마인드 리서치 사이언티스트는 알파고의 바둑 학습 방식에 대해 강연했다.

IBM의 딥블루가 체스 챔피언에게 승리했을 때도 체스계에 상당한 파장이 일었다. 이번 대국에서 알파고가 1승이라도 거둘 경우, 바둑계 뿐 아니라 사회적으로 미치는 영향이 클 것으로 예상된다. 이세돌 9단도 "패배할 경우 바둑계에 부정적인 영향을 줄 수 있지만 시대의 변화는 어쩔 수 없다"고 했다.

데이비드 실버 리서치 사이언티스트는 "딥블루가 인간에게 승리한 이후 많은 연구가 시작됐고 인공지능 분야 발전에도 많은 기여를 했다"며 "어떤 결과가 나오건 이번 대국을 계기로 AI 등 여러분야에서 연구가 시작될 것이라 생각한다"고 설명했다.

[알파고vs이세돌 D-1]"알파고 이기면, 바둑도 컴퓨터로 배우게 될 것"

딥마인드는 지난해 5월부터 10월까지 본격적으로 알파고를 개발하기 시작했다. 그동안 알파고의 훈련시간은 약 3만시간(GPU상)이며, 10만회의 대국을 펼쳤다. 알파고는 초당 19만건의 경우의 수를 고려한다.

이세돌 9단의 대국횟수는 약 1만회, 트레이닝 시간은 3만시간에 달한다. 초당 고려하는 경우의 수는 100건 수준이다. 인간 바둑기사는 경험과 직관적인 판단을 통해 착수를 결정한다.

알파고도 인간처럼 수를 읽고, 형세를 판단한다. 알파고의 정책망은 다음 수를 어디에 두는 것이 가장 좋은지를 평가하고, 가치망이 위치별 판세를 평가한다. 불필요한 경우의 수를 버리고, 가장 승산있는 수를 찾는다.

알파고는 프로 기사들의 기보를 보면서 그들이 어떻게 돌을 두는지 배우는 '감독학습', 스스로 대국을 펼치며 시행착오를 거치는 '강화학습'을 토대로 실력을 키웠다.

데이비드 실버 사이언티스트는 "알파고는 전문 바둑기사의 과거 기보를 데이터베이스로 삼아 3000만개의 포지션을 추출했다"며 "사람의 움직임을 모방하도록 1차로 '감독학습'을 시킨 다음, 스스로 대국을 펼치면서 시행착오를 거치는 '강화학습'을 거쳤다"고 설명했다.

그는 알파고가 프로 기사 5단 이상의 기보를 모두 활용했지만, 특정 기사의 기보만으로 알파고의 바둑 스타일이 바뀌지 않는다고 설명했다.

데이비드 실버 사이언티스트는 "알파고가 기사 한명의 기보를 활용하기는 어렵다"며 "알파고에는 수십만건의 기보를 넣어야 하고, 소량으로는 알파고의 스타일을 바꾸기에는 충분하지 않다"고 설명했다.

그는 "알파고가 셀프대국을 통해 알파고에게 많은 발전을 했다"면서도 "아직까지 이세돌 등 전문기사들의 기력을 따라가진 못하지만 미지수가 많기 때문에 우리도 쉽게 승부를 예측할 수 없다"고 덧붙였다.

한진주 기자 truepearl@asiae.co.kr