Multimodality | Gabriele Sarti

Multimodality

Contrastive Language-Image Pre-training for the Italian Language

We present the first CLIP model for the Italian Language (CLIP-Italian), trained on more than 1.4 million image-text pairs.

The first CLIP model pretrained on the Italian language.