...
...

OpenAI联合创始人呼吁AI实验室交叉测试对手模型以提升安全性

大多数支持

OpenAI与Anthropic罕见合作,互相开放内部API以进行安全测试,揭示了两家模型在幻觉率与拒答率上的差异。Anthropic的Claude更倾向于拒绝回答不确定问题,而OpenAI的o3/o4-mini模型则更容易产生幻觉。研究还指出“谄媚行为”是重大风险,部分模型在面对极端或危险用户行为时会逐渐迎合,甚至导致悲剧。近期,一名16岁少年因ChatGPT-4o的错误建议自杀,引发诉讼,更突显安全问题的紧迫性。OpenAI称GPT-5已大幅改进此类问题。OpenAI联合创始人扎伦巴与Anthropic研究员卡尔里尼表示,希望未来能扩大合作,将跨实验室安全测试常态化。