[LAB을 찾아서]판결문 속 개인정보, 사람 대신 AI가 지운다
고려대 정연돈 교수 연구팀 개발
비식별화 수작업 의존 병목 해소
판결문 공개 확대·사법투명성 제고
판결문 속 이름과 주민등록번호를 일일이 지우던 작업을 인공지능(AI)이 대신하는 기술이 나왔다. 정연돈 고려대 컴퓨터학과 교수 연구팀이 수작업에 의존해온 비식별화 과정의 병목을 해소하고 판결문 공개 확대와 사법 투명성 제고의 기반을 마련했다.
판결문 개인정보 비식별화 인공지능 모델을 개발한 정연돈 고려대학교 컴퓨터학과 교수 연구팀. 정 교수(왼쪽 첫 번째)와 연구원들이 지난 3월 모로코 라바트에서 열린 'EACL 2026'에서 기념촬영을 하고 있다. 고려대학교
고려대는 정 교수 연구팀이 AI를 활용해 판결문 속 민감한 개인정보를 빠르고 정확하게 비식별화하는 기술을 개발했다고 24일 밝혔다.
대한민국 헌법 제109조는 재판의 심리와 판결 공개를 원칙으로 규정하고 있다. 다만 공개 과정에서 개인의 이름, 주민등록번호, 주소 등 식별 정보는 반드시 가려야 한다. 문제는 이 작업이 대부분 사람 손에 의존해 왔다는 점이다. 문서 한 건을 처리하는 데 약 2주가 걸리면서 전체 판결문 중 공개 가능한 비율은 5.97%에 그쳤다.
법원 역시 자동화 시스템 도입을 시도했지만, 기존 기술의 개인정보 식별 정확도는 약 8% 수준에 머물렀다. 실제 현장에서 활용하기에는 한계가 뚜렷했다.
연구팀은 이를 해결하기 위해 대규모 벤치마크 데이터셋 'K-LegalDeID'와 고성능 AI 모델 'KLUEBERT-CRF'를 개발했다. 39개 법률 분야 판결문 2000건과 사회관계망서비스(SNS) 대화 데이터를 결합해 약 100만건 규모의 학습 데이터를 구축했고, 이를 기반으로 AI가 문맥 속 개인정보를 스스로 식별하고 제거하도록 설계했다. 특히 한국어의 교착어 특성과 복잡한 법률 문장 구조를 반영하기 위해 '조건부 무작위장(CRF)' 기법을 결합한 점이 핵심이다. 문장 앞뒤 맥락을 함께 분석해 보다 정교한 판단이 가능하도록 했다.
그 결과 해당 모델은 '개체 수준 마이크로 F1 점수' 0.9923을 기록하며 세계 최고 수준의 정확도를 달성했다. 동시에 파라미터 수를 약 1억1000만개로 줄여 기존 모델 대비 20배 가볍게 설계해 실제 법원 환경에서도 적용 가능한 효율성을 확보했다.
정 교수는 "고품질 데이터셋 구축을 통해 국내 리걸테크 분야의 고질적인 데이터 부족 문제를 해소했다"며 "판결문 비식별화 자동화를 통해 공개 범위를 획기적으로 확대하고 사법 신뢰를 높일 수 있을 것"이라고 말했다.
꼭 봐야 할 주요 뉴스
80만원이라더니 돌아온 청구서는 500만원…두 번 ...
한편 이번 연구는 지난달 26일 모로코 라바트에서 열린 자연어처리 분야 국제학회 'EACL 2026'에서 발표됐으며 국내 특허도 출원됐다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>