김진ㆍ최정아 '데이터 사이언스 입문'

'해리 포터' 작가 조앤 K. 롤링은 순수하게 작품성으로 평가 받고 싶었다. 그는 '로버트 갤브레이스'라는 가명으로 2013년 추리소설 '쿠쿠스 콜링(The Cuckoo's Calling)'을 발표했다. 언론과 평단은 혜성처럼 등장한 신인 작가에게 주목했다. 아무도 그의 정체를 몰랐지만 롤링의 열혈 팬인 '더 선데이 타임스' 기자는 롤링이 분명하다고 확신했다. 미국 듀케인대학 컴퓨터과학 교수 태프릭 쥬올라에게 두 작가의 문체를 비교해달라고 의뢰했다.

쥬올라 교수는 'the'와 'in', 'at', 'on', 'to' 등의 사용에 주목했다. 예컨대 "오른쪽에 둬"라는 문장에는 'on', 'to', 'at'이 모두 들어갈 수 있다. 다른 사람인 척해도 작가에게는 습관적으로 쓰는 표현이 있다. 쥬올라 교수는 갤브레이스와 롤링, 그리고 다른 여성 작가들의 작품에서 이를 찾아내 비교ㆍ분석했다. 많은 사소한 표현으로 '베이즈 추론'을 무수히 반복했다.

베이즈 추론은 통계 추론 방법이다. 추론 대상의 사전 확률에 새로 입력된 데이터를 반영해 사후 확률을 추론한다. 통계학적으로 설명하면 이해하기 조금 어렵다. 김진ㆍ최정아는 '데이터 사이언스 입문'에서 레몬과 토마토가 들어 있는 과일상자를 예로 든다. '데이터 사이언스 입문'은 데이터 분석 기법을 어려운 통계 기호 대신 사례로 제시해 설명하는 안내서다.

A 상자에 레몬 아홉 개와 토마토 한 개, B 상자에 레몬 한 개와 토마토 아홉 개가 있다. 물음표 상자는 A이거나 B일 수 있다. 어떤 정보도 없으면 각각의 확률은 '이유 불충분의 원리'에 따라 50%가 된다.

저자는 사전 확률에 대한 정교한 확률 계산을 위해 조건부 확률값부터 구한다. 물음표 상자에서 과일 한 개를 꺼내는 상황을 만드는 것이다. 이때 확실한 것은 물음표 상자가 A 또는 B이며 과일 한 개를 꺼내면 레몬 또는 토마토가 나온다는 점이다. 이런 네 가지 상황이 벌어질 가능성을 모두 합치면 확률은 100%가 된다.

물음표 상자가 A이면서 레몬이 나올 확률은 45%, 토마토가 나올 확률은 5%다. B이면서 레몬이 나올 확률은 5%, 토마토가 나올 확률은 45%다. 꺼낸 과일이 레몬이면 토마토가 나올 가능성은 사라진다. 이미 벌어진 사건과 다른 가능성은 필요가 없어지기 때문이다.

레몬이 나온 상황에서 벌어질 수 있는 가능성은 두 가지다. 물음표 상자가 A 또는 B인 것이다. 꺼낸 과일이 토마토일지 모른다는 가능성은 사라진다. 따라서 물음표 상자가 A 또는 B일 확률은 45% 대 5%, 다시 말해 90% 대 10%가 된다. 이것이 베이즈 추론으로 도출하는 사후 확률이다.

저자는 "또 다른 새로운 데이터가 추가되면 방금 얻은 결과로 사전 확률을 이용한 또 다른 베이즈 추정을 실시함으로써 추론의 정확도를 점차 높여 나갈 수 있다"고 설명한다.

사후 확률을 새로운 추론의 사전 확률로 활용한 정보 업데이트를 축차합리성이라고 한다. 이는 인간이 데이터를 분석하고 판단하는 방식과 흡사하다.

예컨대 우리는 엄마가 나를 사랑한다고 믿는다. 그런 믿음을 갖기까지 엄마와 나 사이에는 많은 사건이 있었다. 크고 작은 경험이 쌓여 '엄마는 나를 사랑해'라는 결론을 내리게 됐을 것이다. 무수히 많은 근거는 하나하나 자세히 떠오르지 않는다. 추론의 중간 과정은 잘 기억나지 않고 최종 결론만 확실하게 남는다.

축차합리성은 결국 우리 두뇌가 정보를 효율적으로 처리하고 판단하게 돕는 특징이다. 머신러닝(컴퓨터 스스로 방대한 데이터 분석으로 미래를 예측하는 기술)도 똑같이 축차합리성을 활용한다.

저자는 "머신러닝 시스템이 데이터를 바탕으로 패턴을 학습한 뒤 새로운 데이터가 주어지면 스스로 오류를 수정하고 성능을 향상시킨다는 말은 베이즈 추정 방식을 사용해 예측의 정확도를 높여간다는 뜻"이라고 설명한다.

그 결과는 갤브레이스와 롤링이 동일인임을 알아낼 만큼 정교하다. 롤링은 더 이상 정체를 숨길 이유가 없었다. '쿠쿠스 콜링'을 발표한 지 몇 달 만에 실토해야 했다.

