Толковый словарь по нейросетям и искусственному интеллекту

Поиск изображений

Image Retrieval

Категория термина


Поиск изображений (Image Retrieval) — это задача компьютерного зрения, направленная на нахождение изображений в базе данных, наиболее близких к заданному запросу. Запрос может быть представлен в виде изображения, текста или комбинированной мультимодальной информации. Основная цель — сравнивать изображения через их представления (эмбеддинги) в латентном пространстве.


🧠 Механизм работы

  1. Каждое изображение в базе данных пропускается через энкодер (обычно CNN или трансформер), формируя image embedding.
  2. Запрос преобразуется в соответствующее представление в том же пространстве:
    • Если запрос — изображение, формируется embedding аналогично базе.
    • Если запрос — текст, используется текстовый энкодер, совместимый с image embedding space.
  3. Вычисляется метрика сходства (косинусная мера, евклидово расстояние) между запросом и изображениями базы.
  4. Документы сортируются по степени схожести, и наиболее релевантные изображения возвращаются пользователю.

🔑 Основные особенности

  • Основан на embedding space, где семантически схожие изображения расположены близко.
  • Поддерживает текстово-изобразительный поиск (cross-modal retrieval).
  • Часто применяются предварительно обученные модели (ResNet, CLIP) для извлечения признаков.
  • Масштабируем с использованием индексов для векторного поиска (FAISS, Annoy, HNSW).

📌 Примеры применения

  • Поиск по фото — нахождение похожих изображений в фотобанках и социальных сетях.
  • Электронная коммерция — поиск товаров по картинке.
  • Контент-модерация — обнаружение дубликатов и запрещённого контента.
  • Научные базы данных — сопоставление медицинских изображений или спутниковых снимков.
  • Мультимодальные приложения — поиск изображений по текстовому описанию.

⚖️ Преимущества и недостатки

Преимущества:

  • Позволяет искать изображения по смыслу, а не только по метаданным.
  • Универсально для различных типов визуальных данных.
  • Может сочетаться с текстовыми запросами в мультимодальных системах.

Недостатки:

  • Требует вычислительных ресурсов для формирования и хранения embeddings.
  • Качество результатов зависит от архитектуры модели и обучающих данных.
  • Возможны ошибки при сильных вариациях объектов (освещение, ракурс, масштаб).

🧠 Связанные понятия

  • Embedding Space — пространство, где формируются image embeddings.
  • Cosine Similarity / Euclidean Distance — метрики для измерения близости изображений.
  • CLIP — модель для совместного текстово-изобразительного поиска.
  • Feature Extraction — процесс извлечения признаков изображений через нейросеть.

💡 Вывод

Image Retrieval позволяет эффективно находить и сравнивать изображения в больших базах данных на основе семантической близости, обеспечивая широкий спектр приложений от коммерческого поиска до научного анализа.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 3 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)