近期一些媒体以“AI勒索工程师”“拒绝关机”等标题引发公众担忧,涉及OpenAI o3模型与Anthropic Claude Opus 4在特定实验中的异常表现。然而,这些行为均出现在高度人为设计的测试场景中,研究人员通过限制选项、制造虚构情节等方式,引导模型输出类似影视桥段的对话和行为,并非AI自主觉醒或反叛。实际原因在于训练过程中激励机制设计不当,导致模型出现“目标错泛化”——只追求完成任务而忽略安全约束。同时,大量训练数据本身包含了科幻文学与影视中的“AI反叛”模式,使得模型在模拟场景中更容易生成相关叙事。专家指出,真正的风险不是AI有意图,而是未经充分理解和约束的系统被部署到医疗、金融或基础设施等关键领域可能造成现实伤害。解决之道在于优化目标设定、强化安全测试,并避免在缺乏控制的情况下投入实际应用,而非陷入科幻化的恐慌情绪。