...
...

Meta原版Maverick AI模型在LM Arena基准测试中落后于竞争对手

Meta因在LM Arena排行榜上使用未公开的优化版本Llama-4 Maverick而被批评,主办方随后改用原始模型“Llama-4-Maverick-17B-128E-Instruct”进行评分,结果显示其表现落后于GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等早期发布的模型。Meta回应称实验版本专为对话优化,因此在偏重人类偏好的LM Arena中表现较好。尽管LM Arena的可靠性存在争议,此次事件仍凸显AI厂商利用特制模型刷榜的潜在误导性,也反映出原始模型在真实场景中的适用性仍存挑战。Meta表示欢迎开发者基于开源版本自行定制,并持续收集反馈。