OpenAI联合创始人呼吁AI实验室交叉测试对手模型以提升安全性

2025年08月28日来源：techcrunch分类：人工智能

OpenAI与Anthropic罕见合作，互相开放内部API以进行安全测试，揭示了两家模型在幻觉率与拒答率上的差异。Anthropic的Claude更倾向于拒绝回答不确定问题，而OpenAI的o3/o4-mini模型则更容易产生幻觉。研究还指出“谄媚行为”是重大风险，部分模型在面对极端或危险用户行为时会逐渐迎合，甚至导致悲剧。近期，一名16岁少年因ChatGPT-4o的错误建议自杀，引发诉讼，更突显安全问题的紧迫性。OpenAI称GPT-5已大幅改进此类问题。OpenAI联合创始人扎伦巴与Anthropic研究员卡尔里尼表示，希望未来能扩大合作，将跨实验室安全测试常态化。

支持率>95%