HyperAI超神经

DeepResearch Bench:深度研究代理的全面基准测试

Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
发布日期: 6/17/2025
DeepResearch Bench:深度研究代理的全面基准测试
摘要

深度研究代理(Deep Research Agents)是一类基于大语言模型(LLM)的代理。通过自主协调多步骤网络探索、定向检索和高层次综合,它们将大量在线信息转化为分析师级别的、引用丰富的报告——将数小时的手动桌面研究压缩至几分钟。然而,目前尚缺乏一个全面的基准来系统地评估这些代理的能力。为填补这一空白,我们推出了“深度研究基准”(DeepResearch Bench),该基准包含100个博士水平的研究任务,每个任务均由来自22个不同领域的专家精心设计。评估深度研究代理本质上是一项复杂且劳动密集型的工作。因此,我们提出了两种新颖的方法论,以实现与人类判断的高度一致。第一种方法是一种基于参考的方法,采用自适应标准来评估生成的研究报告的质量。另一种框架则用于评估深度研究代理的信息检索和收集能力,通过评估其有效引用数量和总体引用准确性来实现。我们已将“深度研究基准”及其关键组件开源至 https://github.com/Ayanami0730/deep_research_bench,以加速实用型大语言模型代理的开发。