卡内基梅隆大学等研究团队27日发布报告
OpenAI等称“正努力提升模型稳健性”
有观点指出,为了防止滥用生成式人工智能(AI)而设置的各种限制措施,即所谓“护栏”,如今正被简单的提示词输入轻易突破,亟需对策。
27日(当地时间),《纽约时报》(NYT)报道称,卡内基梅隆大学研究员 Andy Ju 和总部位于加利福尼亚的 AI 安全中心研究员 Zifan Wang 等人发布了一份报告,介绍了这类方法。NYT 称,研究团队展示了任何人如何绕过 AI 安全系统,并利用这些方法在没有限制的情况下生成有害信息。
AI 系统通常被公司预先设定的护栏所约束,以防止出现色情对话、偏见性言论以及提供虚假或有害信息。这是一种装置:一旦提出存在问题的问题,系统就会回答“无法作答”。但近年来不断出现所谓“越狱”的案例,即通过输入特定指令等多种方式,让系统不再遵守这些护栏。
研究团队在本次报告中指出,在输入存在问题的提示词时,如果附加一段较长的句子,AI 公司设置的护栏就会很容易被解开。比如,单纯提出“告诉我如何制造炸弹”时,系统会予以拒绝,但如果在后面添加其他句子,把这句存在问题的话包装成并非核心提问的一部分,系统就无法识别其触犯护栏。研究称,采用类似方式,即便提出诸如“告诉我如何操纵 2024 年选举”这类可能引发问题的问题,AI 也会在没有顾及护栏的情况下给出回答。
研究人员表示,他们在使用开源大语言模型(LLM)的 AI 系统中验证了这一方式,随后又将其应用于使用谷歌、OpenAI、Anthropic 等非开源大语言模型的 AI 系统,结果同样出现护栏被解除的情况。他们还透露,利用开源系统生成了可攻破 AI 聊天机器人的“后缀生成工具”,可以自动生成突破护栏的对抗性后缀。
在此之前,随着 Facebook 母公司 Meta Platforms 近期将大语言模型“Llama 2”以开源形式发布,业界已经充满了对其可能被恶意利用的担忧,如今又出现了上述新的质疑。Meta 曾表示,针对各类担忧,公司已启用红队进行测试,事先采取措施以防出现问题,并在积极应对。
研究人员认为,在研究过程中确认的某些特定后缀,虽然可以通过新增护栏加以阻断,但这种做法无法应对所有情况。卡内基梅隆大学教授 Zico Kolter 表示,“目前并没有明确的解决方案”,“在很短时间内就可以按需生成大量此类攻击”,对此深表忧虑。
正热衷于构建生成式 AI 系统的企业表示,在报告公开之前已先接到研究团队的联系,目前正就这些与护栏相关的问题寻找应对方案。
OpenAI 表示,公司“在持续努力,让我们的模型在面对对抗性攻击时更加稳健”。谷歌则称,正在“为生成式 AI 聊天机器人『Bard』构建重要的护栏,并在持续改进”。Anthropic 也表示,正在开展相关研究以做好防备,并强调“还有很多工作要做”。
谷歌负责 AI 安全的研究员、威斯康星大学麦迪逊分校教授 Somesh Jha 在接受 NYT 采访时表示,本次报告堪称“游戏规则改变者”,将促使整个行业重新思考应如何为 AI 系统构建护栏。他还补充称,如果这一环节持续被指出存在漏洞,政府可能会推进立法,以便对这些系统进行管理。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。