Meta原版Maverick AI模型在LM Arena基准测试中落后于竞争对手

2025年04月13日来源：TechCrunch分类：人工智能

Meta因在LM Arena排行榜上使用未公开的优化版本Llama-4 Maverick而被批评，主办方随后改用原始模型“Llama-4-Maverick-17B-128E-Instruct”进行评分，结果显示其表现落后于GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等早期发布的模型。Meta回应称实验版本专为对话优化，因此在偏重人类偏好的LM Arena中表现较好。尽管LM Arena的可靠性存在争议，此次事件仍凸显AI厂商利用特制模型刷榜的潜在误导性，也反映出原始模型在真实场景中的适用性仍存挑战。Meta表示欢迎开发者基于开源版本自行定制，并持续收集反馈。

支持率<5%