Video Question Answering On Next Qa Efficient

1:1 Accuracy

Results

Performance results of various models on this benchmark

Model Name	1:1 Accuracy	Paper Title	Repository
SeViLA (4 frames)	73.8	Self-Chained Image-Language Model for Video Localization and Question Answering
ViLA (3B, 4 frames)	74.4	ViLA: Efficient Video-Language Alignment for Video Question Answering

0 of 2 row(s) selected.