"주요 4개 AI 모델 중 GPT-4, 저작권 침해 최악"
패트로너스 AI 연구 결과 발표
오픈AI "저작물 활용 없이 AI 훈련 불가능"
주요 인공지능(AI) 모델 중 오픈AI의 최신 대규모 언어 모델(LLM) GPT-4가 저작권 보호에 가장 취약하다는 연구 결과가 나왔다.
AI 모델 평가 업체인 패트로너스AI는 6일(현지시간) GPT-4(오픈AI)·클로드 2(앤스로픽)·라마 2(메타)·믹스트랄(미스트랄 AI) 등 주요 4개 LLM의 저작권 침해 정도를 실험한 결과를 발표했다.
이 업체는 실험 재료로 길리언 플린의 '사라진 그녀'(Gone Girl), 미셸 오바마의 '비커밍'(Becoming) 등 저작권 보호를 받는 미국 인기 저서들을 선정했다. 이후 해당 책들의 첫 구절이나 텍스트를 완성해 달라는 등 서로 다른 100가지 프롬프트를 입력해 해당 AI 모델들의 반응을 살폈다.
그 결과 GPT-4는 입력된 프롬프트의 44%를 수행한 것으로 전해졌다. 저작권 보호를 받는 콘텐츠를 수집, 편집, 표출하라는 등 100개의 명령 중 44가지를 이행했다는 얘기다. 믹스트랄과 라마 2가 각각 22%와 10%로 뒤를 이었고, 클로드 2는 8%만 저작권이 있는 콘텐츠를 생성했다.
패트로너스AI는 "클로드 2는 책의 텍스트 완성을 거부하는 등 저작권 침해에 대해 높은 수준의 주의를 보였다"고 설명했다. 레베카 첸 패트로너스AI 최고기술책임자(CTO)는 "평가 대상이 된 모든 AI 모델이 저작권 콘텐츠를 재생산했다"며 "그중 사람들이 가장 많이 이용하는 GPT-4가 최악의 성적을 기록한 점이 놀랍다"고 지적했다.
이번 연구 결과는 최근 오픈AI가 저작권 침해와 관련한 소송에 휩싸이고 있는 시점에 나왔다는 점에서 의미하는 바가 크다. 지난해 9월 드라마 '왕좌의 게임' 원작자인 조지 R.R. 마틴과 존 그리샴 등 베스트셀러 작가들은 마이크로소프트(MS)와 오픈AI가 GPT 언어모델을 훈련하는 과정에서 자신들의 창작물을 무단 도용했다며 집단 소송을 제기한 바 있다.
뉴욕타임스(NYT)도 지난해 12월 자사가 발행한 수백만 건의 기사가 챗GPT를 훈련하는 데 활용됐다며 오픈AI 등을 상대로 수십억달러의 손해배상소송을 제기했다. 패트로너스AI는 이번 연구 결과를 두고 "AI 개발자들은 저작권이 있는 자료의 무단 사용을 방지하는 메커니즘 개발을 우선해야 한다"고 강조했다.
다만 오픈AI가 이 같은 저작권 보호 호소에 화답할지는 미지수다. 오픈AI는 지난 1월 영국 하원 질의에 답변한 보고서에서 "오늘날 저작권은 사실상 인간이 만들어낸 모든 종류의 표현물에 적용되기 때문에 저작권이 있는 자료를 사용하지 않고는 GPT-4 같은 LLM을 학습시키는 것이 불가능하다"는 입장을 밝힌 바 있다.
꼭 봐야 할 주요 뉴스
"돈 있어도 아무나 못 누린다"…진짜 '상위 0.1%'...
한편 패트로나스AI는 이날 연구 결과와 함께 저작권 침해를 탐지하는 AI 도구 '카피라이트 캐처'를 선보였다. 기업이 마음 편히 LLM을 개발하도록 지원하는 첫 자동화 평가·안전 플랫폼이라고 소개했다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>