Толковый словарь по нейросетям и искусственному интеллекту
Перекрёстное внимание
Категория термина
Перекрёстное внимание (Cross-Attention) — это разновидность механизма внимания (attention), при котором запросы (Query) формируются из одной последовательности данных, а ключи (Key) и значения (Value) — из другой. Такой подход позволяет модели сопоставлять информацию из разных источников или модальностей, например, текст ↔ изображение, вопрос ↔ контекст, исходный текст ↔ перевод.
🧠 Как работает Cross-Attention
- Пусть есть две последовательности: X (например, скрытые состояния декодера) и Y (например, выходы энкодера).
- Для Query (Q) берутся проекции из X, а для Key (K) и Value (V) — из Y.
- Вычисляется внимание:
- Результат позволяет модели интегрировать информацию из внешнего источника Y в обработку последовательности X.
🔑 Зачем нужен Cross-Attention
- Для связывания двух различных наборов данных.
- Для обеспечения контекстной генерации: декодер учитывает информацию от энкодера.
- Для мультимодальных моделей: текстовые запросы могут управлять обработкой изображений, звука или видео.
📌 Примеры применения
- Transformer Decoder: в машинном переводе декодер использует cross-attention, чтобы при генерации учитывать скрытые состояния энкодера.
- BERT с дополнительным вводом: когда нужно сопоставить вопрос и контекст (вопросо-ответные системы).
- Text-to-Image модели (например, Stable Diffusion): cross-attention связывает текстовые описания с латентным представлением изображения.
- Speech-to-Text: аудиофичи сопоставляются с текстом через cross-attention.
⚖️ Преимущества и недостатки
Преимущества:
- Позволяет эффективно объединять разные источники информации.
- Увеличивает точность в задачах перевода, генерации и мультимодальных приложениях.
- Гибкий механизм: подходит для любых комбинаций данных.
Недостатки:
- Более высокая вычислительная сложность, чем у self-attention.
- Требует точной настройки: несбалансированные модальности могут «перетягивать» внимание.
🧠 Связанные понятия
- Self-Attention — внимание внутри одной последовательности.
- Multi-Head Attention — многоголовое расширение attention, также применимое к cross-attention.
- Encoder-Decoder Attention — частный случай cross-attention в трансформерах для перевода.
- Мультимодальные трансформеры — активно используют cross-attention для объединения текста и изображений.
💡 Вывод
Cross-Attention — это механизм, позволяющий одной последовательности фокусироваться на другой, что делает возможным интеграцию разнородной информации. Он является фундаментом современных моделей перевода, генерации изображений по тексту и других мультимодальных приложений.