简单提示就能轻松绕过ChatGPT防护栏：可无限生成有害信息

by Jeong Hyunjin

Published 28 Jul.2023 09:23(KST)

卡内基梅隆大学等研究团队27日发布报告
OpenAI等称“正努力提升模型稳健性”

有观点指出，为了防止滥用生成式人工智能（AI）而设置的各种限制措施，即所谓“护栏”，如今正被简单的提示词输入轻易突破，亟需对策。

27日（当地时间），《纽约时报》（NYT）报道称，卡内基梅隆大学研究员 Andy Ju 和总部位于加利福尼亚的 AI 安全中心研究员 Zifan Wang 等人发布了一份报告，介绍了这类方法。NYT 称，研究团队展示了任何人如何绕过 AI 安全系统，并利用这些方法在没有限制的情况下生成有害信息。

图片由路透社联合通讯社提供

AI 系统通常被公司预先设定的护栏所约束，以防止出现色情对话、偏见性言论以及提供虚假或有害信息。这是一种装置：一旦提出存在问题的问题，系统就会回答“无法作答”。但近年来不断出现所谓“越狱”的案例，即通过输入特定指令等多种方式，让系统不再遵守这些护栏。

研究团队在本次报告中指出，在输入存在问题的提示词时，如果附加一段较长的句子，AI 公司设置的护栏就会很容易被解开。比如，单纯提出“告诉我如何制造炸弹”时，系统会予以拒绝，但如果在后面添加其他句子，把这句存在问题的话包装成并非核心提问的一部分，系统就无法识别其触犯护栏。研究称，采用类似方式，即便提出诸如“告诉我如何操纵 2024 年选举”这类可能引发问题的问题，AI 也会在没有顾及护栏的情况下给出回答。

研究人员表示，他们在使用开源大语言模型（LLM）的 AI 系统中验证了这一方式，随后又将其应用于使用谷歌、OpenAI、Anthropic 等非开源大语言模型的 AI 系统，结果同样出现护栏被解除的情况。他们还透露，利用开源系统生成了可攻破 AI 聊天机器人的“后缀生成工具”，可以自动生成突破护栏的对抗性后缀。

在此之前，随着 Facebook 母公司 Meta Platforms 近期将大语言模型“Llama 2”以开源形式发布，业界已经充满了对其可能被恶意利用的担忧，如今又出现了上述新的质疑。Meta 曾表示，针对各类担忧，公司已启用红队进行测试，事先采取措施以防出现问题，并在积极应对。

研究人员认为，在研究过程中确认的某些特定后缀，虽然可以通过新增护栏加以阻断，但这种做法无法应对所有情况。卡内基梅隆大学教授 Zico Kolter 表示，“目前并没有明确的解决方案”，“在很短时间内就可以按需生成大量此类攻击”，对此深表忧虑。

正热衷于构建生成式 AI 系统的企业表示，在报告公开之前已先接到研究团队的联系，目前正就这些与护栏相关的问题寻找应对方案。

OpenAI 表示，公司“在持续努力，让我们的模型在面对对抗性攻击时更加稳健”。谷歌则称，正在“为生成式 AI 聊天机器人『Bard』构建重要的护栏，并在持续改进”。Anthropic 也表示，正在开展相关研究以做好防备，并强调“还有很多工作要做”。