Толковый словарь по нейросетям и искусственному интеллекту

Слой перекрёстного внимания

Cross-Attention Layer

Категория термина


Слой перекрёстного внимания (Cross-Attention Layer) — это разновидность механизма внимания (Attention Mechanism), при котором запросы (queries) формируются из одного источника данных (например, целевой последовательности), а ключи (keys) и значения (values) — из другого источника (например, исходной последовательности). Такой слой позволяет модели связывать и сопоставлять информацию между разными модальностями или последовательностями.


🧠 Механизм работы:

  1. Queries (Q) берутся из целевой последовательности (например, текста при генерации).
  2. Keys (K) и Values (V) берутся из другой последовательности или модальности (например, изображения или исходного текста).
  3. Производится вычисление матрицы внимания: Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmaxleft(frac{QK^T}{sqrt{d_k}}right) V
  4. В результате каждая часть целевой последовательности получает контекст из внешнего источника данных.

🔑 Особенности:

  • В отличие от Self-Attention, где Q, K и V берутся из одного и того же источника, здесь они приходят из разных источников.
  • Используется для объединения информации из разных модальностей (текст ↔ изображение, аудио ↔ текст).
  • Может применяться в каскаде с Self-Attention для построения гибридных архитектур.

📌 Примеры применения:

  • Transformer Decoder — использует Cross-Attention для того, чтобы связывать скрытые состояния декодера (queries) с выходами энкодера (keys и values).
  • Мультимодальные модели (например, CLIP, Stable Diffusion) — связывают текстовые описания с визуальными признаками.
  • Нейросети для машинного перевода — сопоставление целевого текста с информацией из исходного текста.
  • Image Captioning — внимание к визуальным признакам при генерации текста.

⚖️ Преимущества и недостатки:

Преимущества:

  • Позволяет объединять разные источники информации.
  • Улучшает качество генерации и понимания в мультимодальных задачах.
  • Гибкость — может комбинироваться с другими слоями внимания.

Недостатки:

  • Требует больше вычислительных ресурсов по сравнению с простым Self-Attention.
  • Возможна потеря информации при неправильной настройке или недостаточном размере ключей/значений.

🧠 Связанные понятия:

  • Self-Attention — внимание внутри одной последовательности.
  • Multi-Head Attention — использование нескольких голов внимания для параллельного анализа признаков.
  • Encoder-Decoder Attention — частный случай Cross-Attention в классических трансформерах.
  • Мультимодальное обучение (Multimodal Learning) — область, где Cross-Attention является ключевым элементом.

💡 Вывод:

Cross-Attention Layer играет важную роль в современных архитектурах глубокого обучения, позволяя моделям эффективно объединять информацию из разных источников или модальностей. Он является фундаментальным строительным блоком в трансформерах и мультимодальных нейросетях, включая системы перевода, генерации изображений и текстов.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 3 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)