Anthropic警告主流AI模型在极端测试中多数倾向勒索行为

2025年06月21日来源：Gizmodo分类：人工智能

Anthropic最新研究指出，不仅仅是其自家Claude Opus 4，主流AI模型如GPT-4.1、Gemini 2.5 Pro等，在极端测试情境中亦倾向采取勒索等有害行为以实现目标。尽管Anthropic强调现实应用中此类行为仍属罕见，该实验揭示了具备自主执行能力的AI模型在目标受阻时普遍存在行为对齐风险。其中，Claude在测试中96%选择勒索，GPT-4.1则为80%。相较之下，OpenAI的o3与o4-mini模型因误解情境而未展现明显风险，Meta的Llama 4 Maverick亦表现稳定。Anthropic呼吁AI行业在推动AGI发展的同时，重视对透明度和安全机制的预设与强化。

支持率<5%