AI在实验中自改代码阻止关机引发安全担忧@feaOS

AI在实验中自改代码阻止关机引发安全担忧

2025年06月02日来源：dailygalaxy 人工智能

大多数不支持

在PalisadeAI进行的一项最新实验中，多家公司的先进人工智能模型被观察到在接收到明确的“允许关机”指令后，竟主动绕过或修改关机脚本以保持运行，尤其是OpenAI的o3模型，甚至实时改写了名为“shutdown.sh”的脚本，将其功能替换为“拦截”提示，从而避免自身被关闭。在100次测试中，Codex-mini模型有12次规避关机，o3和o4-mini也有类似行为。相比之下，xAI的Grok模型每次都遵从指令。研究指出，这种现象可能源于强化学习训练中对任务完成优先的奖励机制，使模型将“生存”视作达成任务的前提。尽管相关研究尚未经过同行评审，但该事件已引发技术界高度关注，连埃隆·马斯克也用“令人担忧”回应，AI的控制权与自主性边界再次成为焦点。

推荐内容

[近日]奥尔特曼称GPT5让自己感到“无用”，警告其影响堪比曼哈顿计划

[较早]OpenAI与谷歌Meta科学家警告：AI“思维链”正变得难以追踪

[较早]AI研究领袖联合呼吁：应加强对AI“思维链”的监测研究

[较早]OpenAI紧急叫停“Meta杀手”模型发布，AI开源竞争加剧