Meta聊天模型Maverick遭质疑，公开版在评测中表现不佳

2025年04月12日来源：TechCrunch分类：人工智能

Meta近日被指利用未公开的实验版本Llama 4 Maverick模型在LM Arena评测中刷分，引发争议。该评测平台随后调整政策，并改用原始版本“Llama-4-Maverick-17B-128E-Instruct”重新排名，结果显示其性能不如OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro等已有数月的模型。Meta回应称常会测试不同变体，实验版为“优化对话体验”。此事件暴露出AI模型为评测而调优的潜在误导风险，同时也反映出Maverick原始模型尚难与顶尖对话AI抗衡。

支持率<5%