[是是非非]为实现K-AI与内容的共生

by Choi Ilgwon

Published 28 Aug.2023 08:10(KST)

Updated 29 Aug.2023 09:42(KST)

open/close

被称为比ChatGPT多学习韩语6500倍的本土生成式人工智能（AI）模型——Naver“HyperCLOVA X”近日公开亮相。由于被视为能够在韩国市场对抗OpenAI、谷歌等企业的“王牌”，外界已经将其评价为“K-人工智能产业”的有力候补。

毫无疑问，HyperCLOVA X肩负着为K-人工智能产业发展“必须成功”的课题。然而，颇具讽刺意味的是，韩语能力的突出反而可能进一步暴露其削弱竞争力的“阿喀琉斯之踵”。

关键在于版权问题。生成式AI的原理，是通过为学习收集所需数据的“文本与数据挖掘（TDM）”过程，给出用户想要的答案。为了训练AI模型，必须经过对数据进行“复制”和“传输”的过程。而复制权和传播权属于原始创作者。韩语学习规模大6500倍，意味着能为消费者提供更加精准的信息，但同时也意味着作为分析来源的数据，其版权发生冲突的可能性也同样大幅提高。

新闻版权问题尤为棘手。由于题材广泛、以事实为武器，对于希望产出可信结果的生成式AI来说，新闻是最偏好的数据源。Naver代表Choi Suyeon在HyperCLOVA X发布现场也表示：“新闻内容实际上才是最优质的数据。”

虽然大型AI学习模型已经启动，但用于保护版权的法律装置却完全没有建立起来。现行法律中，并没有明确规定如何防止在生成式AI学习过程中对原始数据的版权侵害。由于生成式AI是通过间接引用新闻内容来生成结果，因此有观点认为，这与传统那种直接引用的版权侵权方式并不相同。

尤其是，对不受版权限制而利用新闻的“合理使用”概念，正出现被扩大解读的趋势。所谓合理使用，是指在符合公共利益的情况下，即便未经著作权人许可进行复制或使用，也不构成版权侵权，而现在有人主张新闻属于这一范畴。也有观点认为，为开发生成式AI而利用新闻内容，是符合“为新技术开发服务的公共利益诉求”的。

但反对意见同样不容小觑。一位要求匿名的IT法律专家表示：“生成式AI的产出不仅会替代对原始数据——即著作物本身的需求，而且还被用于营利或商业目的，因此并不能认定为合理使用。”国会文化体育观光委员会在著作权法修正案审查报告中也指出：“现行法只是笼统规定，在不不当损害著作人利益的范围内，可以进行合理使用”，并强调“数据分析是否适用于免责，仍不确定”。

最近，韩国报业协会向Naver等企业以及政界递交了“不得侵犯版权”的意见书。但从政界和政府的动向来看，这份意见书似乎不过是一纸空文。有人指出，政府的重心与其说是强化版权保护，不如说是为了激活AI产业，反而意在进一步限制版权。提交至文体委的国民力量党议员Lee Yongho的著作权法修正案，就新增了“为创造附加信息或价值而通过数据挖掘分析海量信息的情形”，作为单独的著作财产权限制事由。这意味着，在进行数据挖掘时，即便使用著作物，也可在未经著作权人许可的情况下进行复制和传输。企划财政部上个月还发布了包含“对AI学习用数据的版权侵权予以免责规定”的《服务产业数字化战略》。

当然，作为著作权法主管部门的文化体育观光部，早在2020年发布《版权愿景2030》时，就曾表明“为在第五代移动通信、人工智能等新技术环境下激活新产业，将提升版权保护与利用的明确性”的意志。然而三年过去，仍未见实质性进展。新闻界对此解读称，“政府只关心激活AI等未来新兴产业，对保护创作成果则兴趣寥寥”。