Logical Reasoning
基准测试列表
该任务相关的所有基准测试列表
lingoly
最佳模型: Claude Opus
评估指标
查看详情
big-bench-formal-fallacies-syllogisms
评估指标
查看详情
big-bench-logic-grid-puzzle
评估指标
查看详情
big-bench-logical-fallacy-detection
评估指标
查看详情
big-bench-penguins-in-a-table
评估指标
查看详情
big-bench-reasoning-about-colored-objects
评估指标
查看详情
big-bench-strategyqa
评估指标
查看详情
big-bench-temporal-sequences
评估指标
查看详情
ruworldtree
评估指标
查看详情
winograd-automatic
评估指标
查看详情