xAI最新的Grok 3基准测试成绩引发争议,OpenAI员工指责xAI在AIME 2025数学测试的对比数据中省略了关键指标,使Grok 3看起来优于OpenAI的o3-mini-high模型。但若采用cons@64(共识@64)标准,o3-mini-high的分数实际上更高,Grok 3 Reasoning Beta的单次得分(@1)甚至落后于OpenAI o1的“中等”计算模式。xAI联合创始人伊戈尔·巴布什金对此反驳,称OpenAI过去也曾发布类似的“误导性”图表,但业内更中立的研究人员整理了更完整的对比数据,揭示各模型在不同测试条件下的真实表现。AI研究员内森·兰伯特进一步指出,模型的计算成本与资金投入仍未公开,这意味着当前AI基准测试难以准确衡量模型的实际能力,行业竞争的不透明性仍然存在。