Толковый словарь по нейросетям и искусственному интеллекту
Коннектор языка и изображения
Contrastive Language–Image Pretraining
CLIP
Категория термина
CLIP — это нейросетевая модель, разработанная компанией OpenAI, которая объединяет обработку естественного языка (NLP) и компьютерное зрение (CV) в единой архитектуре. Полное название расшифровывается как Contrastive Language–Image Pretraining, что означает «контрастивное предварительное обучение языка и изображений».CLIP обучается таким образом, чтобы сопоставлять тексты и изображения, находя между ними семантическое соответствие. Модель принимает на вход изображение и текст, и определяет, насколько они связаны друг с другом. При этом CLIP не требует специальной настройки под конкретные задачи — он способен работать "из коробки" с множеством мультимодальных задач.Как работает CLIP:
- Два энкодера:
- Один энкодер (обычно Vision Transformer или ResNet) преобразует изображение в эмбеддинг.
- Второй энкодер (на основе трансформера) обрабатывает текст и также преобразует его в эмбеддинг.
- Контрастивное обучение:
- На этапе обучения CLIP получает пары (изображение + описание) и учится, чтобы соответствующие пары имели близкие эмбеддинги, а несоответствующие — дальние.
- Векторное сравнение:
- После обучения CLIP может сравнивать любые изображения и текстовые описания, определяя, насколько хорошо они соответствуют друг другу.
- «Собака на пляже»
- «Кошка на дереве»
- «Пицца на тарелке»
- Поиск изображений по текстовому запросу и наоборот (zero-shot retrieval)
- Классификация изображений без дообучения (zero-shot classification)
- Генерация изображений по тексту в системах типа DALL·E или Stable Diffusion (CLIP часто используется как «текстовый контроллер»)
- Обнаружение объектов по описанию (text-guided object detection)
- Интерпретация визуального контента (например, описание сцен)
- CLIP обучен на 400 миллионов пар текстов и изображений, собранных из интернета.
- Работает в парадигме zero-shot learning, то есть может решать задачи, на которых не обучался напрямую.
- Сильно повлиял на развитие мультимодальных моделей, таких как DALL·E, Flamingo, BLIP, OpenCLIP, и другие.
- Доступны модели CLIP от OpenAI:
ViT-B/32,ViT-B/16,RN50,RN101. - Альтернативы: OpenCLIP (от LAION), CLIPSeg, CLIPA, CLIP-G и др.