[아시아경제 구은모 기자] “아따 인자 편하게 말해도 다 알아먹어야”

앞으로 음성 기반 인공지능(AI) 서비스 앞에서 어색한 서울말로 또박또박 말하느라 눈치 볼 필요가 없어진다. 경상·전라·충청·강원·제주 등 지역별 방언 발화 데이터가 새로 구축되면서 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 AI 서비스의 문제점을 상당 부분 해결할 수 있을 것으로 보이기 때문이다.

정부가 ‘데이터 댐’의 수문을 활짝 열고 지난해 모아둔 ‘인공지능 학습용 데이터’의 대량 방류에 나선다. 양질의 학습용 데이터가 AI 산업계로 흘러들면서 그간 데이터 가뭄에 시달리던 국내 AI 산업의 혁신에도 한층 속도가 붙을 것으로 보인다.

18일 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 인공지능 학습용 데이터 170종을 AI 통합 플랫폼 ‘AI허브’를 통해 이날부터 순차적으로 개방한다고 밝혔다. 인공지능 학습용 데이터 구축 사업은 AI 성능을 개선하는 데 필요한 데이터를 정부가 직접 대량 생산해 AI허브에 비축해두고 누구나 다운로드해 활용할 수 있게 한 사업이다. 정부는 2017년부터 인공지능 학습용 데이터를 구축·개방해왔고, 지난해부터는 ‘디지털 뉴딜’의 대표과제인 데이터 댐 구축 프로젝트의 일환으로 그 규모를 확대하고 있다.

고윤석 NIA 지능데이터본부장은 “AI 기업이나 연구자들이 시간과 비용 문제로 학습용 데이터를 개별적으로 생산하기 어려운 상황에서 업계의 부담을 덜어주고 AI 산업발전을 촉진하기 위해 업계의 수요가 많은 핵심 데이터를 중심으로 구축이 이뤄지고 있는 것”이라고 설명했다.

이번 개방으로 AI 산업계에는 활용할 수 있는 학습용 데이터의 양이 대폭 늘어나게 됐다. 기존에 음성·자연어, 비전, 헬스케어, 농축수산, 안전 등 5개 분야 21종(4650만건) 수준이었던 데이터를 민간 수요를 기반으로 도로주행영상 등 자율주행 분야 21종, 산림수종 이미지 등 국토환경 12종, 패션상품 이미지 등 기타 분야 18종을 추가해 8개 분야 170종(4억8000만건)으로 늘렸다. 데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 대학과 병원 등 총 674개의 기업과 기관이 참여했다.

대표적으로 이번에 새롭게 추가된 자율주행 분야에는 국내 도로주행 영상뿐 아니라 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다양한 데이터를 포함돼 자율주행차 개발을 한층 앞당길 것으로 기대된다. 한 업계 관계자는 “자체 수집하기 어려운 장애물, 특수차선, 포트홀 등 다양한 객체가 포함돼 자율주행 기술개발에 크게 도움이 될 것”이라고 평가했다.

국내 AI 산업계의 ‘데이터 갈증’도 어느 정도 해소될 것으로 보인다. 그동안 국내 AI 기업들은 AI 모델을 고도화하는 데 필수요소인 데이터 부족에 허덕이고 있었다. 원시 데이터를 일일이 수집하고 가공한 뒤 검수를 거쳐 사용하기 편한 형태로 표준화해야 하는 AI 학습용 데이터는 구축과정의 대부분에 반복 수작업이 수반돼 상당한 시간과 비용 발생한다. 중소기업이나 스타트업은 물론 대기업도 자체적으로 대량 구축하기가 쉽지 않았던 배경이다. 부족한 데이터를 확보하기 위해 해외 오픈데이터를 활용하기도 했지만 국내 실정을 반영하지 못하는 탓에 국내 AI 서비스 개발에 활용하는 데 한계도 많았다.

데이터 갈증이 해소되면서 AI 산업의 혁신도 속도를 낼 수 있을 것으로 보인다. 송경희 과기정통부 인공지능기반정책관은 “개방된 데이터는 그동안 데이터 부족으로 성능 개선에 어려움을 겪던 기업들이 AI 모델의 유효성을 높이는 데 기여할 것이며, 데이터 활용을 통한 시스템과 서비스 고도화 사례도 지속적으로 축적될 것”이라고 전망했다.

이번에 공개된 데이터는 품질관리 전문기관인 한국정보통신기술협회(TTA) 등과 협력해 데이터 전주기 품질관리 체계를 마련하는 등 이전과 비교해 질적인 개선도 이뤘다는 평가다. 과기정통부와 NIA는 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영해 전문적 품질관리 지원체계를 구축했고, 주요 대기업과 스타트업, 대학 및 연구기관 등이 참여해 데이터 개방 전 활용성 검토를 진행해 실제 수요자가 요구하는 데이터 품질을 확보하려고 했다.

과기정통부와 NIA는 데이터 개방 후에도 9월말까지 3개월간 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선해나갈 계획이다. 아울러 ‘인공지능 데이터 활용협의회’도 이날 출범한다. 활용협의회는 TTA와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐으며, AI 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다.

구은모 기자 gooeunmo@asiae.co.kr