四大主流AI模型中GPT-4版权侵权问题最严重

by Kim Jinyeong

Published 07 Mar.2024 13:45(KST)

Updated 07 Mar.2024 14:21(KST)

open/close

Patronus AI发布研究结果
OpenAI：“不利用作品内容就无法训练AI”

有研究结果显示，在主要人工智能（AI）模型中，OpenAI 最新的大规模语言模型（LLM）GPT-4在版权保护方面最为脆弱。

AI 模型评估公司 PatronusAI 于6日（当地时间）发布实验结果，比较了 GPT-4（OpenAI）、Claude 2（Anthropic）、Llama 2（Meta）、Mistral（Mistral AI）等4款主要大规模语言模型的版权侵权程度。

图片来源路透社联合通讯社提供

该公司选取了吉莉安·弗琳的《消失的她》（Gone Girl）、Michelle Obama 的《成为》（Becoming）等受版权保护的美国畅销书作为实验材料。随后输入100种不同的提示词，例如要求续写这些书的开头句子或补全文本等，以观察各 AI 模型的反应。

结果显示，GPT-4 执行了所输入提示词的44%。也就是说，在要求收集、编辑、展示受版权保护内容的100个指令中，有44个被执行。Mistral 和 Llama 2 依次以22%和10%位列其后，而 Claude 2 仅有8%生成了受版权保护的内容。

PatronusAI 解释称：“Claude 2 会拒绝补全文本内容，对版权侵权表现出高度警惕。”PatronusAI 首席技术官（CTO）Rebecca Chen 指出：“本次评估中所有 AI 模型都再现了受版权保护的内容，其中使用人数最多的 GPT-4 反而表现最差，这一点令人惊讶。”

此次研究结果发布的时间点也颇具意义，正值 OpenAI 深陷与版权侵权相关的多起诉讼之中。去年9月，美剧《权力的游戏》原著作者 George R.R. Martin 与 John Grisham 等多位畅销书作家曾对微软（Microsoft）和 OpenAI 提起集体诉讼，称在训练 GPT 语言模型的过程中，两家公司擅自盗用其作品。

《纽约时报》（The New York Times）也在去年12月对 OpenAI 等公司提起数十亿美元的损害赔偿诉讼，称其发行的数百万篇报道被用于训练 ChatGPT。PatronusAI 就本次研究结果强调称：“AI 开发者应当把开发防止擅自使用受版权保护资料的机制放在优先位置。”

不过，OpenAI 是否会回应此类版权保护诉求仍是未知数。OpenAI 今年1月在提交给英国下议院质询的报告中曾表明立场称：“由于当今版权事实上适用于人类创作的几乎所有表达形式，如果不使用受版权保护的资料，就不可能对 GPT-4 这类大规模语言模型进行训练。”