...
... ...

研究指控 Chatbot Arena 偏袒大公司助其操控AI榜单

一项由Cohere、斯坦福、麻省理工与Ai2联合发布的新研究指出,知名AI基准平台Chatbot Arena疑似为Meta、OpenAI、Google等少数公司提供了私测特权,允许它们反复提交多版本模型、隐藏较差成绩,借此在排行榜上取得更高名次,而这一机会并未向所有公司开放。研究分析了280万场对比测试,认为大公司因更多参赛样本获得不公平优势。LM Arena回应称研究充满“不准确”与“可疑分析”,并坚持平台评测依然公平公正。研究团队呼吁平台设定私测上限并公开相关成绩,同时优化采样算法以确保模型出场次数均等。此事正值LM Arena宣布成立公司并计划融资之际,引发业界对私有评测机构能否抵御企业影响、维持客观公正的新一轮质疑。