국립중앙도서관, '토종 AI' 학습용 텍스트 푼다…데이터 기지로 변모

이종길 기자

입력 2026.02.04 09:23

00분 54초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

저작권 해결된 소장 자료, '독자 AI 모델' 구축에 지원
美 NARA 기록물 8만8000면 입수 등 지식 자원 영토 확장

국립중앙도서관이 장서 보관소를 넘어 국가 인공지능(AI) 산업의 핵심 자원을 공급하는 데이터 기지로 변모한다. 저작권이 소멸하거나 해결된 소장 자료를 고품질 텍스트 데이터로 가공해 민간과 정부에 개방한다.

중앙도서관은 이 같은 내용을 담은 '2026년 주요업무 추진계획'을 4일 발표했다. 핵심은 정부가 추진 중인 '독자 AI 파운데이션 모델' 구축 지원이다. 한국어의 문맥과 뉘앙스를 정확히 이해하는 '토종 AI'를 개발하려면 정제된 한국어 데이터는 필수다. 이에 도서관은 과학기술정보통신부와 협력해 방대한 소장 자료를 AI 학습용 데이터로 변환해 제공한다. 도서관 누리집 내 '공유 서재'를 통해 전면 개방해 K콘텐츠 창작과 기술 개발을 돕는다.

데이터의 원천이 되는 지식 자원의 영토도 확장한다. 올해 인쇄자료 33만여 권과 전자책 등 디지털자료 40만여 건을 새로 수집해 국가 지식의 총량을 늘린다. 특히 시중 유통망에서 빠지기 쉬운 독립출판물을 크라우드펀딩 플랫폼을 통해 발굴하고, 국제행사 회의자료 등 비정형 간행물을 수집 대상에 포함한다.

중앙도서관 관계자는 "해외 한국학 자료의 경우 기존 미국·일본 중심에서 영국·독일로 조사 범위를 넓히고, 미국 국립문서기록관리청(NARA)이 소장한 한국 관련 기록 8만8000여 면을 입수해 근현대사 연구 자료를 보강할 방침"이라고 말했다.

확보한 자원과 기술을 국민이 활용하도록 교육 기능도 강화한다. AI 리터러시(문해력) 교육과정을 기존 25회에서 32회로 확대 운영하고, 청소년에게 증강현실(AR) 뮤지컬, AI 디지털 윤리 체험관 등 신기술과 독서를 융합한 프로그램을 제공한다.

국제 사회와의 교류에도 박차를 가한다. 특히 오는 8월 부산에서 열리는 '2026 세계도서관정보대회' 기간 전 세계 100여 개국 국립도서관장이 모이는 '국립도서관장회의'를 주관한다. AI 시대 도서관의 역할과 데이터 주권에 대한 국제적 논의를 진행할 예정이다.