OpenAI被指夸大o3模型数学基准表现，引发行业透明度争议

2025年04月21日来源：techcrunch分类：人工智能

OpenAI近期发布的o3模型，其真实表现被独立研究机构Epoch AI揭示远低于公司去年公布的成绩，引发外界对其透明度与测试手法的质疑。OpenAI曾称o3在FrontierMath高难数学题集上准确率超过25%，而Epoch实际测试得分仅约10%。尽管OpenAI在早前公布中已包含该低分，但外界担忧其宣传中未明确区分所使用的计算资源差异。更重要的是，ARC Prize和OpenAI员工也确认公开版本的o3为“低计算优化版本”，以提升响应速度和成本效率。虽然OpenAI将推出更强的o3-pro版本，但此次事件再次提醒公众：AI性能指标应结合实际应用背景审慎解读。随着各家竞相发布模型抢占市场，类似基准争议在行业中已屡见不鲜，包括xAI和Meta也曾被指公布误导性数据。

支持率<5%