Home News Latest Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Image Classification

Image classification is a fundamental task in computer vision, aiming to understand and categorize entire images by assigning them specific labels. This task typically targets images of single objects and achieves high-precision classification through technologies such as deep learning, with broad application value including content recognition and scene understanding. When classification reaches the instance level, it becomes associated with image retrieval, which also involves finding similar images in large databases.

DINOv2 (ViT-g/14, frozen model, linear eval)

EffNet-L2 (SAM)

µ2Net+ (ViT-L/16)

BiT-L (ResNet-152x4)

Branching/Merging CNN + Homogeneous Vector Capsules

Wide-ResNet-28-10

iNaturalist 2018

MAE (ViT-H, 448)

mini WebVision 1.0

PreAct-ResNet18 + FMix

ALIGN (50 hypers/task)

Model soups (ViT-G/14)

Kuzushiji-MNIST

iNaturalist 2019

Tiny ImageNet Classification

EMNIST-Balanced

WaveMixLite-128/7

ViT-Large/16 (384)

ViT-Large/16 (384)

ColonINST-v1 (Seen)

ColonINST-v1 (Unseen)

CurriculumNet (InceptionResNet-v2)

MAE (ViT-H, 448)

µ2Net+ (ViT-L/16)

VGG-5(Spinal FC)

VIT-L/16 (Spinal FC, Background)

Clothing1M (using clean data)

µ2Net (ViT-L/16)

InternImage-H（CNN）

Heinsen Routing

Tiered ImageNet 5-way (5-shot)

EGNN+Transduction

Colored-MNIST(with spurious correlation)

Bamboo (ViTB/16)

iWildCam2020-WILDS

Oxford-IIIT Pets

CeiT-S (384 finetune resolution)

Oxford-IIIT Pet Dataset

TWIST (ResNet-50)

Red MiniImageNet 20% label noise

Red MiniImageNet 40% label noise

Red MiniImageNet 80% label noise

CIFAR-10 (with noisy labels)

Entropy-based Logic Explained Network

LRA-diffusion (CLIP ViT)

V-MoE-H/14 (Every-2)

EfficientNet-B3

ObjectNet (Bounding Box)

ResNet-18 + Vision Eagle Attention

Places365-Standard

SWAG (ViT H/14)

Red MiniImageNet 60% label noise

Visual Wake Words

Id Pattern Dataset

Malaria Dataset

kEffNet-B0 V2 16ch

Certificate Verification

CIFAR-10 (40 Labels, ImageNet-100 Unlabeled)

CIFAR-10, 40% Symmetric Noise

CIFAR-10, 60% Symmetric Noise

CIFAR-10 Image Classification

CIFAR-100, 40% Symmetric Noise

SEER (RegNet10B)

SEER (RegNet10B)

Fracture/Normal Shoulder Bone X-ray Images on MURA

Our Ensemble Learning-2

Galaxy10 DECals

ResNet-50 + UDA+AutoDropout

SparseSwin with L2

EfficientNet-L2-Ns

Imbalanced CUB-200-2011

Intel Image Classification

Large Labelled Logo Dataset (L3D)

L3D_original_2level

Noisy MNIST (AWGN)

Noisy MNIST (Contrast)

Noisy MNIST (Motion)

ObjectNet (ImageNet classes)

Diffusion Classifier (zero-shot)

split CIFAR-100

AP-GeM (ResNet-101)

µ2Net+ (ViT-L/16)

CIFAR-100, 60% Symmetric Noise

CIFAR-100 (alpha=0, 20 clients per round)

WRN-28-2 + UDA+AutoDropout

TransBoost-ResNet50

EnGraf-Net101 (G=4, H=1)

Flowers (Tensorflow)

CNN+ Wilson-Cowan model RNN

FMD (materials)

ImageNet-100 (Class-IL, 5T)

WRN (N=28, k=10)

WRN (N=36, k=5)

SqueezeNet + Simple Bypass

ImageNet-Sketch

µ2Net+ (ViT-L/16)

WaveMix-256/16 (level 2)

SEER (RegNet10B)

µ2Net (ViT-L/16)

RADAM (ConvNeXt-XL)

PDO-eConv (ours)

MNIST-rot-12k (DA)

PDO-eConv (ours)

NCT-CRC-HE-100K

No Background RGB Arabic Alphabets Sign Language Dataset

PASCAL VOC 2007

kMobileNet V3 Large 16ch

ResNet-152 2x (RS training)

Deep regularization

RGB Arabic Alphabet Sign Language (AASL) dataset

Fuzzy rank-based fusion of CNN models using Gompertz function

Split Fashion M-NIST

Model with negotiation paradigm

Max Margin Contrastive

Stanford Online Products

TransBoost-ResNet50

Training and validation dataset of capsule vision 2024 challenge.

BiomedCLIP+PubmedBERT

VizWiz-Classification

ISIC 2018+Atlas Dermatology

New Plant Diseases Dataset

touchtech/fashion-images-gender-age