TaskCraft:代理任务的自动化生成
Shi, Dingfeng ; Cao, Jingyi ; Chen, Qianben ; Sun, Weichen ; Li, Weizhen ; Lu, Hongxuan ; Dong, Fangchen ; Qin, Tianrui ; Zhu, King ; Yang, Minghao ; Yang, Jian ; Zhang, Ge ; Liu, Jiaheng ; Zhang, Changwang ; Wang, Jun ; Jiang, Yuchen Eleanor ; Zhou, Wangchunshu
发布日期: 6/17/2025

摘要
代理任务(agentic tasks)是指需要自主性、工具使用和适应性推理的多步骤问题解决任务,这些任务在自然语言处理(NLP)和人工智能(AI)的发展中变得越来越重要。然而,现有的指令数据缺乏工具交互,而当前的代理基准测试依赖于昂贵的人工标注,这限制了它们的可扩展性。为此,我们引入了\textsc{TaskCraft},这是一种自动生成具有难度可调、多工具使用和可验证性的代理任务及其执行轨迹的工作流。TaskCraft通过基于深度和宽度的扩展方法来扩展原子任务,从而创建结构上和层次上复杂的挑战。实证结果表明,这些任务在生成工作流中改进了提示优化,并增强了对代理基础模型的监督微调。我们提供了一个大规模的合成数据集,包含约36,000个不同难度的任务,以支持未来关于代理调优和评估的研究。