Толковый словарь по нейросетям и искусственному интеллекту

Коннектор языка и изображения

Contrastive Language–Image Pretraining
CLIP

Категория термина


CLIP — это нейросетевая модель, разработанная компанией OpenAI, которая объединяет обработку естественного языка (NLP) и компьютерное зрение (CV) в единой архитектуре. Полное название расшифровывается как Contrastive Language–Image Pretraining, что означает «контрастивное предварительное обучение языка и изображений».CLIP обучается таким образом, чтобы сопоставлять тексты и изображения, находя между ними семантическое соответствие. Модель принимает на вход изображение и текст, и определяет, насколько они связаны друг с другом. При этом CLIP не требует специальной настройки под конкретные задачи — он способен работать "из коробки" с множеством мультимодальных задач.Как работает CLIP:
  1. Два энкодера:
    • Один энкодер (обычно Vision Transformer или ResNet) преобразует изображение в эмбеддинг.
    • Второй энкодер (на основе трансформера) обрабатывает текст и также преобразует его в эмбеддинг.
  2. Контрастивное обучение:
    • На этапе обучения CLIP получает пары (изображение + описание) и учится, чтобы соответствующие пары имели близкие эмбеддинги, а несоответствующие — дальние.
  3. Векторное сравнение:
    • После обучения CLIP может сравнивать любые изображения и текстовые описания, определяя, насколько хорошо они соответствуют друг другу.
Пример:Дайте CLIP изображение собаки и подписи:
  • «Собака на пляже»
  • «Кошка на дереве»
  • «Пицца на тарелке»
CLIP правильно сопоставит изображение с первой подписью, так как их эмбеддинги будут ближе всего.Области применения: Важные особенности:
  • CLIP обучен на 400 миллионов пар текстов и изображений, собранных из интернета.
  • Работает в парадигме zero-shot learning, то есть может решать задачи, на которых не обучался напрямую.
  • Сильно повлиял на развитие мультимодальных моделей, таких как DALL·E, Flamingo, BLIP, OpenCLIP, и другие.
Форматы и реализации:
  • Доступны модели CLIP от OpenAI: ViT-B/32, ViT-B/16, RN50, RN101.
  • Альтернативы: OpenCLIP (от LAION), CLIPSeg, CLIPA, CLIP-G и др.
Значение:CLIP стал прорывной мультимодальной моделью, впервые позволив ИИ «понимать» изображения в контексте естественного языка без специальной настройки под конкретные задачи. Он лежит в основе современных генеративных и мультимодальных ИИ-систем, объединяя зрение и текст в едином пространстве смыслов.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)