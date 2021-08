온라인공간 데이터 모아 학습하는 AI

[아시아경제 임주형 기자] 세계 최대의 소스코드 공유 플랫폼 '깃허브'가 개발한 인공지능(AI), 깃허브 코파일럿이 일부 소프트웨어 개발자들의 우려를 사고 있습니다. 코파일럿은 미완성된 소스코드를 자동 완성하거나 오류를 수정함으로써 개발 작업을 도와주는 AI 프로그램 입니다.

문제는 깃허브에 공개된 소스코드들을 열람해 학습을 하다보니, 다른 프로그래머의 작품을 '훔쳐 쓸 수 있다는' 논란이 불거진 겁니다.

깃허브는 무료로 소스코드를 공유하는 플랫폼이다 보니, 그 자료들은 원칙적으로 사람은 물론 AI에게도 열려 있습니다. 하지만 아무리 AI더라도 남이 만든 소스코드나 디자인, 창작물 등을 그대로 가져다 쓸 경우 저작권을 침해했다는 반발에 직면할 수 있습니다.

깃허브 코파일럿은 지난 6월29일(현지시간) 처음 공개됐습니다. 깃허브의 모기업인 마이크로소프트(MS)의 '비주얼 스튜디오 코드'에서 베타 사용자용 확장 프로그램으로 설치해 이용할 수 있으며, 프로그래밍을 하는 개발자를 도와 소스코드의 자동 완성을 돕거나, 오류를 수정하는 역할을 맡는 일종의 '로봇 동업자' 개념입니다.

코파일럿은 깃허브와 미국 인공지능 연구소 '오픈AI'의 협력으로 개발됐습니다. 오픈AI는 코덱스(Codex)라고 불리는 자사 모델을 GPT-3 언어 예측 모델에 적용하는 방식으로 AI를 만들었고, 이 AI는 깃허브 커뮤니티의 막대한 공개 소스 자료를 통해 훈련하며 코딩 실력을 키웠습니다.

코파일럿은 데뷔 당시 개발자 커뮤니티에서 큰 반향을 일으켰습니다. 오픈소스 개발자들의 사회관계망서비스(SNS)인 '해커 뉴스'에 약 1200개가 넘는 댓글이 달리는가 하면, 독일 사이버 보안 회사 '드라고스' 소속 필립 존 바실이 한 매체와 인터뷰에서 "코파일럿은 다른 비서 도구들과는 '다른 수준'에 있다"며 흥분을 감추지 못하기도 했지요.

그러나 코파일럿을 향한 열기도 잠시, 일부 개발자들은 서서히 코파일럿을 향한 우려를 내비치기 시작했습니다. 쟁점은 코파일럿이 과연 '자신의 실력'으로 개발자들을 돕는 건지, 혹은 단순히 깃허브 내부에 있는 다른 사람의 코드를 베껴올 뿐인 건지 구분하기 힘들다는 겁니다.

미국 테크 매체 '더 버지'에 따르면, 한 개발자가 코파일럿에게 한 프로그램을 만들어 달라고 요청하자 코파일럿은 깃허브에 등록된 특정한 인물의 코드를 그대로 가져온 일이 있었던 것으로 전해졌습니다.

깃허브는 자신이 개발한 소스코드를 자유롭게 게재하고 공유할 수 있는 커뮤니티입니다. 이 커뮤니티에 등록된 데이터는 '공공 데이터'이므로, AI는 자유롭게 이를 이용해 훈련을 할 수 있습니다.

깃허브 코파일럿 공식 홈페이지 또한 이 부분을 정확히 명시하고 있습니다. 깃허브 측은 홈페이지 설명에서 "기계학습 모델이 공개된 데이터를 이용해 훈련하는 것은 '공정 이용(fair use·저작권자의 허가를 구하지 않고 이용할 수 있도록 허용하는 저작권법 개념)' 행위로 간주된다"고 말합니다.

하지만 AI가 단순히 데이터를 훈련하는 데 그치지 않고, 훈련용으로 쓰인 데이터를 여과없이 작업에 이용하는 경우는 상황이 복잡해질 수 있습니다.

더 큰 문제는 AI가 학습을 넘어 특정 인물을 '모방'하기 시작할 때 벌어집니다. 이에 대해 '더 버지'는 지난해 법률 저널 '텍사스 법률 리뷰'에 등록된 한 논문을 인용, 만일 인터넷에 공개된 데이터로 훈련을 해온 AI가 어느날 특정 예술인·디자이너들의 작품과 매우 흡사한 결과물을 만든다면 공정 이용에서 벗어날 위험이 있다고 지적했습니다.

상황이 이렇다보니, 소프트웨어의 자유로운 수정·배포를 옹호하는 단체인 미국 '자유 소프트웨어 재단'(FSF)은 코파일럿과 관련된 법률 문제를 상세히 검토할 필요가 있다고 강조합니다.

FSF는 지난달 28일 공식 홈페이지에 올린 성명에서 "코파일럿에 대한 법적·철학적 의문들을 해결할 백서(whitepaper·특정 사안에 대한 조사 보고서)를 만들어야 한다"고 밝혔습니다.

FSF는 "개발자들은 소프트웨어로 신경망을 학습시키는 것이 공정 이용으로 간주될 수 있는지 알고 싶어 한다"며 "또 코파일럿을 사용하고자 하는 다른 사람들은 복사된 코드 조각 및 기타 요소가 저작권 침해를 초래할 수 있는지 궁금해 하고 있다"고 지적했습니다.

이어 "모든 것이 법적으로 문제가 없다해도, 활동가들은 독점 소프트웨어 회사가 개발자들의 작업물로 서비스를 구축하는 것이 근본적으로 불공정한 게 아닌지 궁금해 한다"며 본격적인 논의에 착수할 것을 촉구했습니다.

임주형 기자 skepped@asiae.co.kr