Толковый словарь по нейросетям и искусственному интеллекту
Слой перекрёстного внимания
Категория термина
Слой перекрёстного внимания (Cross-Attention Layer) — это разновидность механизма внимания (Attention Mechanism), при котором запросы (queries) формируются из одного источника данных (например, целевой последовательности), а ключи (keys) и значения (values) — из другого источника (например, исходной последовательности). Такой слой позволяет модели связывать и сопоставлять информацию между разными модальностями или последовательностями.
🧠 Механизм работы:
- Queries (Q) берутся из целевой последовательности (например, текста при генерации).
- Keys (K) и Values (V) берутся из другой последовательности или модальности (например, изображения или исходного текста).
- Производится вычисление матрицы внимания: Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmaxleft(frac{QK^T}{sqrt{d_k}}right) V
- В результате каждая часть целевой последовательности получает контекст из внешнего источника данных.
🔑 Особенности:
- В отличие от Self-Attention, где Q, K и V берутся из одного и того же источника, здесь они приходят из разных источников.
- Используется для объединения информации из разных модальностей (текст ↔ изображение, аудио ↔ текст).
- Может применяться в каскаде с Self-Attention для построения гибридных архитектур.
📌 Примеры применения:
- Transformer Decoder — использует Cross-Attention для того, чтобы связывать скрытые состояния декодера (queries) с выходами энкодера (keys и values).
- Мультимодальные модели (например, CLIP, Stable Diffusion) — связывают текстовые описания с визуальными признаками.
- Нейросети для машинного перевода — сопоставление целевого текста с информацией из исходного текста.
- Image Captioning — внимание к визуальным признакам при генерации текста.
⚖️ Преимущества и недостатки:
Преимущества:
- Позволяет объединять разные источники информации.
- Улучшает качество генерации и понимания в мультимодальных задачах.
- Гибкость — может комбинироваться с другими слоями внимания.
Недостатки:
- Требует больше вычислительных ресурсов по сравнению с простым Self-Attention.
- Возможна потеря информации при неправильной настройке или недостаточном размере ключей/значений.
🧠 Связанные понятия:
- Self-Attention — внимание внутри одной последовательности.
- Multi-Head Attention — использование нескольких голов внимания для параллельного анализа признаков.
- Encoder-Decoder Attention — частный случай Cross-Attention в классических трансформерах.
- Мультимодальное обучение (Multimodal Learning) — область, где Cross-Attention является ключевым элементом.
💡 Вывод:
Cross-Attention Layer играет важную роль в современных архитектурах глубокого обучения, позволяя моделям эффективно объединять информацию из разных источников или модальностей. Он является фундаментальным строительным блоком в трансформерах и мультимодальных нейросетях, включая системы перевода, генерации изображений и текстов.