...
...

Meta聊天模型Maverick遭质疑,公开版在评测中表现不佳

Meta近日被指利用未公开的实验版本Llama 4 Maverick模型在LM Arena评测中刷分,引发争议。该评测平台随后调整政策,并改用原始版本“Llama-4-Maverick-17B-128E-Instruct”重新排名,结果显示其性能不如OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro等已有数月的模型。Meta回应称常会测试不同变体,实验版为“优化对话体验”。此事件暴露出AI模型为评测而调优的潜在误导风险,同时也反映出Maverick原始模型尚难与顶尖对话AI抗衡。