Research Papers | Notion

CLIP (Contrastive Language-Image Pre-training)

Vision Transformer

ResNet (Residual Network)

Swin Transformer

SSD (Single Shot Multibox Detector)

Detr (Decision Transformer)

ViT (Vision Transformer)

FCN (Fully Convolutional Network)

FPN (Feature Pyramid Network)

BLIP (Bootstrapping Language-Image Pre-training)