HyperAI超神经

排行榜的错觉

Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
发布日期: 5/6/2025
排行榜的错觉
摘要

衡量进展对于任何科学领域的进步都是至关重要的。随着基准测试在科学研究中发挥越来越核心的作用,它们也变得更容易受到扭曲。Chatbot Arena 已成为评估最先进人工智能系统能力的主要排行榜。然而,在本研究中,我们发现了导致这一竞争环境失衡的系统性问题。我们发现,未公开的私人测试实践使少数供应商受益,这些供应商可以在公开发布前测试多个变体,并根据需要撤回分数。我们确认,这些供应商选择最佳分数的能力导致了由于选择性披露性能结果而产生的 Arena 分数偏差。极端情况下,我们发现 Meta 在 Llama-4 发布前测试了 27 种私有语言模型(LLM)变体。此外,我们还证实,专有的闭源模型比开放权重和开源模型具有更高的采样率(对战次数),并且被从 Arena 中移除的模型数量较少。这两种政策随着时间的推移导致了巨大的数据访问不对称性。据估计,谷歌和 OpenAI 分别获得了 Arena 上所有数据的 19.2% 和 20.4%。相比之下,83 种开放权重模型仅获得了总数据量的约 29.7%。我们展示了访问 Chatbot Arena 数据带来的显著好处;即使有限的额外数据也能在 Arena 的分布上带来高达 112% 的相对性能提升,基于我们的保守估计。这些动态共同作用导致了过度拟合 Arena 特定的动力学而非普遍的模型质量。Arena 建立在组织者和维护这一宝贵评估平台的开放社区的巨大努力之上。我们提出了具体的改进建议,以改革 Chatbot Arena 的评估框架,并促进该领域更加公平、透明的基准测试。