...
...

Meta被指“调包”Llama 4基准测试模型,开发者质疑公测版与评测版表现差异明显

大多数不支持

Meta于2025年4月6日发布的旗舰AI模型Llama 4 Maverick在知名测试平台LM Arena上排名第二,但多位AI研究者发现,该评测使用的是Meta专门优化过的“实验聊天版”,而非对开发者开放的通用版本。据Meta官网与Llama平台页面披露,此次评测使用的是“专为对话优化的Maverick模型”,且包含更丰富的表情符号、答案偏长等特点,与实际下载版差异明显。尽管目前业内对基准测试如LM Arena本身的代表性一直存在争议,但多数公司仍默认以统一模型参测,Meta此次“调包”操作引发质疑。研究者指出,这种只用于评测的优化版本可能误导开发者对于模型在真实场景中的性能预期,削弱了基准测试“公正透明、反映实际”的核心价值。Meta与维护LM Arena的组织尚未就此回应置评请求。事件也再次凸显当前AI领域在模型评测标准与公开透明性方面仍需建立更严格规范。