Question Answering On Stepgame
评估指标
1-of-100 Accuracy
评测结果
各个模型在此基准测试上的表现结果
比较表格
模型名称 | 1-of-100 Accuracy |
---|---|
stepgame-a-new-benchmark-for-robust-multi-hop-1 | 52.99 |
各个模型在此基准测试上的表现结果
模型名称 | 1-of-100 Accuracy |
---|---|
stepgame-a-new-benchmark-for-robust-multi-hop-1 | 52.99 |