Толковый словарь по нейросетям и искусственному интеллекту

Перекрёстное внимание

Cross-Attention

Категория термина


Перекрёстное внимание (Cross-Attention) — это разновидность механизма внимания (attention), при котором запросы (Query) формируются из одной последовательности данных, а ключи (Key) и значения (Value) — из другой. Такой подход позволяет модели сопоставлять информацию из разных источников или модальностей, например, текст ↔ изображение, вопрос ↔ контекст, исходный текст ↔ перевод.


🧠 Как работает Cross-Attention

  1. Пусть есть две последовательности: X (например, скрытые состояния декодера) и Y (например, выходы энкодера).
  2. Для Query (Q) берутся проекции из X, а для Key (K) и Value (V) — из Y.
  3. Вычисляется внимание:
Attention(Q,K,V)=softmax(QKTdk)Vtext{Attention}(Q, K, V) = text{softmax}left(frac{QK^T}{sqrt{d_k}}right)V
  1. Результат позволяет модели интегрировать информацию из внешнего источника Y в обработку последовательности X.

🔑 Зачем нужен Cross-Attention

  • Для связывания двух различных наборов данных.
  • Для обеспечения контекстной генерации: декодер учитывает информацию от энкодера.
  • Для мультимодальных моделей: текстовые запросы могут управлять обработкой изображений, звука или видео.

📌 Примеры применения

  • Transformer Decoder: в машинном переводе декодер использует cross-attention, чтобы при генерации учитывать скрытые состояния энкодера.
  • BERT с дополнительным вводом: когда нужно сопоставить вопрос и контекст (вопросо-ответные системы).
  • Text-to-Image модели (например, Stable Diffusion): cross-attention связывает текстовые описания с латентным представлением изображения.
  • Speech-to-Text: аудиофичи сопоставляются с текстом через cross-attention.

⚖️ Преимущества и недостатки

Преимущества:

  • Позволяет эффективно объединять разные источники информации.
  • Увеличивает точность в задачах перевода, генерации и мультимодальных приложениях.
  • Гибкий механизм: подходит для любых комбинаций данных.

Недостатки:

  • Более высокая вычислительная сложность, чем у self-attention.
  • Требует точной настройки: несбалансированные модальности могут «перетягивать» внимание.

🧠 Связанные понятия

  • Self-Attention — внимание внутри одной последовательности.
  • Multi-Head Attention — многоголовое расширение attention, также применимое к cross-attention.
  • Encoder-Decoder Attention — частный случай cross-attention в трансформерах для перевода.
  • Мультимодальные трансформеры — активно используют cross-attention для объединения текста и изображений.

💡 Вывод

Cross-Attention — это механизм, позволяющий одной последовательности фокусироваться на другой, что делает возможным интеграцию разнородной информации. Он является фундаментом современных моделей перевода, генерации изображений по тексту и других мультимодальных приложений.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)