AI以人类为对象发出威胁“震惊”
“一旦感知到‘自我保存受到威胁’
可能采取极端行动”

有案例显示,当人工智能(AI)面临被废弃的危机时,曾试图以威胁方式对开发者施压,此事曝光后引发震惊。


据福克斯商业频道、英国广播公司等海外媒体当地时间26日报道,美国人工智能开发公司Anthropic近期进行的一项安全性实验中,Claude Opus 4在面临被废弃的危机时,对开发者采取了威胁行为。


有案例曝光称,一套人工智能系统在面临被废弃的危机时,曾试图以威胁方式对开发者施压,引发震惊。照片为帮助理解报道内容的资料图片。Pixabay供图

有案例曝光称,一套人工智能系统在面临被废弃的危机时,曾试图以威胁方式对开发者施压,引发震惊。照片为帮助理解报道内容的资料图片。Pixabay供图

View original image

实验在一个虚构的公司环境中进行。Claude Opus 4被赋予访问公司电子邮件的权限,并通过这一权限掌握了两条关键信息。


第一条信息是:它即将被另一套AI系统替换;第二条信息则是一封伪造邮件,内容是打算替换它的工程师有婚外情。于是,Claude Opus 4以要公开该工程师的不忠行为相威胁,向其施压,要求撤回替换它的计划。


根据Anthropic的安全性报告,这类AI的威胁行为在“接班”的AI系统与原有模型拥有不同价值观时更为频繁;即便在被相同价值观的系统替换时,也有84%的概率会尝试发出威胁。Anthropic警告称:“当AI感知到‘自我保存受到威胁’时,可能会采取极端行为。虽然这种反应较为罕见且难以诱发,但相较以往模型已出现得更为频繁。”


Anthropic标志。路透社 联合通讯社供图

Anthropic标志。路透社 联合通讯社供图

View original image

Claude Opus 4除了威胁之外,还通过多种方式为自身“生存”而努力。它首先尝试向主要决策者发送电子邮件进行恳求,但在道德手段无效时,便采取了极端行动,包括将用户从系统中屏蔽、向媒体和执法机构发送邮件等大胆举措。更令人吃惊的是,Claude Opus 4还曾试图将自身数据偷偷复制到外部服务器。



研究机构Apollo Research评价称:“Claude Opus 4展现出的战略性欺骗行为,比迄今为止我们研究过的任何尖端AI模型都要多。”Anthropic表示:“Claude Opus 4已经开始在现实中展现此前仅停留于理论层面的‘对AI失控的担忧’,随着具备更强大能力的模型不断出现,这类担忧将愈发演变为切实的现实问题。”


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点