xAI被指夸大Grok 3基准测试成绩 AI行业Benchmark争议升级

2025年02月23日来源：TechCrunch分类：人工智能

xAI最新的Grok 3基准测试成绩引发争议，OpenAI员工指责xAI在AIME 2025数学测试的对比数据中省略了关键指标，使Grok 3看起来优于OpenAI的o3-mini-high模型。但若采用cons@64（共识@64）标准，o3-mini-high的分数实际上更高，Grok 3 Reasoning Beta的单次得分（@1）甚至落后于OpenAI o1的“中等”计算模式。xAI联合创始人伊戈尔·巴布什金对此反驳，称OpenAI过去也曾发布类似的“误导性”图表，但业内更中立的研究人员整理了更完整的对比数据，揭示各模型在不同测试条件下的真实表现。AI研究员内森·兰伯特进一步指出，模型的计算成本与资金投入仍未公开，这意味着当前AI基准测试难以准确衡量模型的实际能力，行业竞争的不透明性仍然存在。

支持率>95%