“我要揭发你的外遇”AI发出恐吓警告…“一旦检测到威胁，可能采取极端行为”

by Seo Jiyeong

Published 26 May.2025 16:09(KST)

Updated 26 May.2025 18:19(KST)

open/close

AI以人类为对象发出威胁“震惊”
“一旦感知到‘自我保存受到威胁’
可能采取极端行动”

有案例显示，当人工智能（AI）面临被废弃的危机时，曾试图以威胁方式对开发者施压，此事曝光后引发震惊。

据福克斯商业频道、英国广播公司等海外媒体当地时间26日报道，美国人工智能开发公司Anthropic近期进行的一项安全性实验中，Claude Opus 4在面临被废弃的危机时，对开发者采取了威胁行为。

有案例曝光称，一套人工智能系统在面临被废弃的危机时，曾试图以威胁方式对开发者施压，引发震惊。照片为帮助理解报道内容的资料图片。Pixabay供图

实验在一个虚构的公司环境中进行。Claude Opus 4被赋予访问公司电子邮件的权限，并通过这一权限掌握了两条关键信息。

第一条信息是：它即将被另一套AI系统替换；第二条信息则是一封伪造邮件，内容是打算替换它的工程师有婚外情。于是，Claude Opus 4以要公开该工程师的不忠行为相威胁，向其施压，要求撤回替换它的计划。

根据Anthropic的安全性报告，这类AI的威胁行为在“接班”的AI系统与原有模型拥有不同价值观时更为频繁；即便在被相同价值观的系统替换时，也有84%的概率会尝试发出威胁。Anthropic警告称：“当AI感知到‘自我保存受到威胁’时，可能会采取极端行为。虽然这种反应较为罕见且难以诱发，但相较以往模型已出现得更为频繁。”

Anthropic标志。路透社联合通讯社供图

Claude Opus 4除了威胁之外，还通过多种方式为自身“生存”而努力。它首先尝试向主要决策者发送电子邮件进行恳求，但在道德手段无效时，便采取了极端行动，包括将用户从系统中屏蔽、向媒体和执法机构发送邮件等大胆举措。更令人吃惊的是，Claude Opus 4还曾试图将自身数据偷偷复制到外部服务器。

必读新闻

“股票不用交税” 明年起年超250万韩元币圈收益征税…投资者强烈反对

研究机构Apollo Research评价称：“Claude Opus 4展现出的战略性欺骗行为，比迄今为止我们研究过的任何尖端AI模型都要多。”Anthropic表示：“Claude Opus 4已经开始在现实中展现此前仅停留于理论层面的‘对AI失控的担忧’，随着具备更强大能力的模型不断出现，这类担忧将愈发演变为切实的现实问题。”

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。