OpenAI近日发布的新一代推理模型o3与o4-mini在多项任务上表现出色,但测试发现其“幻觉率”却高于旧版本模型。内部测试显示,o3在人物知识测试集PersonQA上的幻觉率高达33%,几乎是上一代模型o1与o3-mini的两倍。更严重的是,o4-mini幻觉率达到48%。研究人员尚未完全理解幻觉增加的原因,推测可能与强化学习流程有关。尽管新模型在编码、数学等领域更强,但在准确性要求极高的场景下,其幻觉问题引发了对商业应用的质疑。外部研究也发现o3会虚构操作流程,甚至编造无法访问的网页链接。OpenAI表示,将持续研究幻觉问题,并探索如集成网页搜索等可能缓解幻觉的解决方案。随着推理模型的发展,如何在提升能力的同时控制幻觉,将成为AI演进中的核心挑战之一。