Home News Latest Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Image Sentence Alignment On Valse Actant Swap

Metrics

Accuracy (%)

pairwise accuracy

Results

Performance results of various models on this benchmark

Model Name	Accuracy (%)	pairwise accuracy	Paper Title	Repository
LXMERT	48.5	45.8	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
CLIP	-	68.6	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
ViLBERT 12-in-1	52.2	58.9	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
VisualBERT	49.7	44.4	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
GPT2	-	76.9	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
ViLBERT	50.4	68.3	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena
GPT1	-	72.2	VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena

0 of 7 row(s) selected.