Math Word Problem Solving
基准测试列表
该任务相关的所有基准测试列表
asdiv-a
最佳模型: ATHENA (roberta-large)
评估指标
查看详情
gsm-plus
最佳模型: GPT-4
评估指标
查看详情
math-minival
最佳模型: Process Supervision (GPT-4)
评估指标
查看详情
math23k
最佳模型: Roberta-DeductReasoner
评估指标
查看详情
mathqa
最佳模型: ELASTIC (RoBERTa-large)
评估指标
查看详情
mawps
最佳模型: OpenMath-CodeLlama-70B (w/ code)
评估指标
查看详情
paramawps
最佳模型: DeBERTa (VM)
评估指标
查看详情
pen
最佳模型: EPT-X
评估指标
查看详情
svamp
最佳模型: GPT-4 (Teaching-Inspired)
评估指标
查看详情
svamp-1-n
最佳模型: ATHENA (roberta-large)
评估指标
查看详情
alg514
评估指标
查看详情
draw-1k
评估指标
查看详情
math
评估指标
查看详情