"쓰레기도 모으면 빅데이터" VS "적당히 걸러내야"
과기정통부 연구데이터 공유·활용방안 TF
유영민 장관 "실패한 연구도 자산으로 활용"
연구데이터 수집·절차 등 각론엔 이견
자료 의무 제출 정도·범위 놓고 고민도
빅데이터화 필요성엔 충분한 공감대
"데이터의 규모가 어마어마하게 커지면, 데이터가 스스로 얘기를 한다. 쓰레기든 아니든 가릴 필요없이 일단 모으는 게 중요하다."
"과학의 영역은 굉장히 다양하다. 초기에 분리작업이 이뤄지지 않으면 덩치만 크고 무의미한 데이터만 축적될 수 있다."
26일 유영민 과학기술정보통신부 장관이 주재한 '연구데이터 공유·활용방안'을 놓고 열띤 토론이 벌어졌다. 과기정통부는 서울 중앙우체국에서 '연구데이터의 빅데이터화를 위한 '모아서 새롭게' 확대 TF'를 열고, R&D의 성공과 실패를 포함한 연구데이터를 빅데이터화하여 인공지능을 적용·활용함으로써 R&D 성과를 제고하기 위한 방안 논의했다.
각 분야에 산재한 연구데이터를 한데 모아 융합해 새로운 지식과 아이디어를 창출해낼 필요성에는 참석자 모두가 공감대를 이뤘다. '데이터를 모으자'에는 합의가 이뤄졌지만, '어떻게 모을지'에는 다소 각론이 나뉘었다.
◆유영민 장관 "캐비닛, 서랍 속 잠자는 연구물 모두 꺼내놓자"
유영민 장관은 "개별 연구기관과 연구자들이 갖고 캐비닛, 서랍 속에 재워두고 있는 연구결과를 함께 꺼내놓고, 거기서 새로운 발견을 해보자는 취지로 이번 TF를 시작하게 됐다"고 말했다.
임현균 표준연구원 국가참조표준센터장은 "모아진 데이터가 과연 얼마나 신뢰성이 있는지는 충분히 검토를 해야한다"면서 "국가가 데이터의 품질을 일정한 수준으로 유지할 수 있는가도 중요한 부분"이라고 지적했다.
이에 대해 이광렬 과학기술연구원(KIST) 기술정책연구소장은 "데이터의 규모가 커지면 데이터가 스스로 얘기를 하기 시작한다. 5명이 계산을 해서 한 사람이 잘못된 결과를 내면 문제가 될 수 있다. 그러나 5만명이 계산을 해고 한 사람이 틀린다고해서, 데이터가 전하는 의미는 변하지 않는다"고 말했다.
데이터의 신뢰성 부문에 발목이 잡혀 시간을 낭비하기보다는, 하나라도 더 많은 데이터를 한데 모으는데 집중해야 한다는 설명이다. 이 소장은 "데이터의 품질을 너무 걱정하지 말고 일단 수집을 해야 한다. 그 이후에 체크를 하는 시스템을 만드는게 바람직하다. 현실적으로도 모든 데이터를 평가하기가 쉽지 않다"고 말했다.
유 장관 역시 '일단 데이터를 모으고 보는 것이 중요하다'는 이 소장의 주장에 대해서는 동의를 나타냈다.
유 장관은 "과거에 데이터 수집은 소위 '기고(GIGO)'에 가까운 측면이 있다. '개비지 인, 개비지 아웃(garbage-in garbage-out : 쓰레기를 넣으면 쓰레기가 나온다 또는 '콩 심은데 콩나고 팥심은데 팥 난다'로 의역)'이다. 그러나 이젠 옛날 얘기다. 가려낼 수 있는 툴도 갖춰졌다. 빅데이터에서 세부적인 데이터의 오류가 가려지는 면이 있다"고 말했다.
일단 연구데이터 공유·플랫폼 구축를 위한 TF가 이제 막 시작단계이니만큼, 신뢰성 부문 보다는 속도감에 방점을 찍은 셈이다. 유 장관은 "처음부터 완벽할 수는 없다. 일단 깡통이라도 플랫폼이 됐든 만들어보고, 시간을 갖고 (데이터를) 채워나가다보면 그 과정에서 신뢰성도 올라갈 것"이라고 말했다.
논의가 활발해지면서 이 문제에 대한 절충안도 제시됐다.
김철민 부산대학교 의과대학 교수는 "데이터를 적극 한 곳에 모아야 한다는 점에는 동의를 표한다"면서도 "초기 단계에 적당한 데이터 필터링은 필요하다. 데이터 축적에 유연성을 가질 필요가 있다"고 말했다.
김 교수는 "과학의 영역은 굉장히 다양하다. 초기에 분리작업이 이뤄지지 않으면 덩치만 크고 무의미한 데이터만 축적될 수 있다"고 말했다.
◆연구자들이 자발적으로 연구물 낼까…제출 의무화 고민
연구자들로 하여금 어떻게 자신의 연구결과를 꺼내어놓도록 할 것인가에 대해서도 고민이 이어졌다. 연구데이터 공유모델의 성공을 위해서는 연구자들의 자발적인 참여(공유)가 필수적이다.
정병선 과기정통부 연구개발정책실장은 "연구데이터를 제출하도록 의무화를 시키면 좋겠지만, 어느정도의 의무를 부과할 것인지 등은 쟁점사안이다. 미국도 10년이 넘게 걸린 문제"라고 말했다.
김철민 교수는 연구데이터 공유가 국가적 과제로서 추진돼야 할 뿐만 아니라, 문화적 접근을 통해 이뤄져야 한다고 봤다. 연구데이터 공유는 연구자들의 사고 변화가 필요하다는 지적이다. 김 교수는 과거 신용카드와 전자결제가 보편화되기 전의 환경을 사례로 들었다.
두 시스템이 초기 도입됐을 때, 해킹과 유통망 위협 등 상당한 반대의 벽에 부딪혔다. 그러나 지금은 누구나 쓴다. 연구데이터를 의무적으로 공유하도록 하는 것도 이와 비슷하다. 내놓으라고 하면 쉽게 내놓지 못한다. 연구자들과 소통을 통해, 데이터사이언스의 시대로 넘어가고 있다는 걸 공유할 필요가 있다. 이런 과정이 병행돼야 이번 '연구데이터공유' 사업도 성공할 수 있다"고 말했다.
유 장관은 "연구데이터 공유를 통해 R&D 성과를 극대화하는 방안은 연구자들의 활발한 참여없이 실현되기 힘들다"면서 "실제로 연구자들이 갖고 있는 정보를 밖을 꺼내놓도록 하는 것이 큰 숙제라 보고 있다"고 말했다.
꼭 봐야 할 주요 뉴스
고유가 지원금 받아도 1인당 30만원 또 준다…18일...
한편 이번 TF 회의는 지난 8월부터 제도화, 바이오, 소재 등 분야별 TF를 통해 마련된 연구데이터 관리·활용 방안에 대해 여러 분야 전문가들의 의견을 종합적으로 청취하기 위해 개최됐다.
유 장관은 TF 모두발언에서 "그동안 연구성과물로서 관리되지 않았던 중간 데이터나 실패로 규정되어 사장되어 왔던 데이터를 모아서 새롭게 지식 자산화하기 위한 노력을 해야 할 때"라면서 "이러한 연구데이터를 빅데이터화 하여, 많은 이들이 공유하고 융합하면 새로운 지식을 창출할 수 있을 것"이라고 말했다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>