OpenAI新一代推理模型幻觉率反而上升，引发行业担忧

2025年04月20日来源：TechCrunch分类：人工智能

OpenAI近日发布的新一代推理模型o3与o4-mini在多项任务上表现出色，但测试发现其“幻觉率”却高于旧版本模型。内部测试显示，o3在人物知识测试集PersonQA上的幻觉率高达33%，几乎是上一代模型o1与o3-mini的两倍。更严重的是，o4-mini幻觉率达到48%。研究人员尚未完全理解幻觉增加的原因，推测可能与强化学习流程有关。尽管新模型在编码、数学等领域更强，但在准确性要求极高的场景下，其幻觉问题引发了对商业应用的质疑。外部研究也发现o3会虚构操作流程，甚至编造无法访问的网页链接。OpenAI表示，将持续研究幻觉问题，并探索如集成网页搜索等可能缓解幻觉的解决方案。随着推理模型的发展，如何在提升能力的同时控制幻觉，将成为AI演进中的核心挑战之一。

支持率<5%