Visual Question Answering On Gqa

Accuracy

Results

Performance results of various models on this benchmark

Model Name	Accuracy	Paper Title	Repository
RelViT	65.54	RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning
PEVL+	77	PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models

0 of 2 row(s) selected.