...
...

OpenAI被指夸大o3模型数学基准表现,引发行业透明度争议

OpenAI近期发布的o3模型,其真实表现被独立研究机构Epoch AI揭示远低于公司去年公布的成绩,引发外界对其透明度与测试手法的质疑。OpenAI曾称o3在FrontierMath高难数学题集上准确率超过25%,而Epoch实际测试得分仅约10%。尽管OpenAI在早前公布中已包含该低分,但外界担忧其宣传中未明确区分所使用的计算资源差异。更重要的是,ARC Prize和OpenAI员工也确认公开版本的o3为“低计算优化版本”,以提升响应速度和成本效率。虽然OpenAI将推出更强的o3-pro版本,但此次事件再次提醒公众:AI性能指标应结合实际应用背景审慎解读。随着各家竞相发布模型抢占市场,类似基准争议在行业中已屡见不鲜,包括xAI和Meta也曾被指公布误导性数据。