Толковый словарь по нейросетям и искусственному интеллекту
Внимание энкодер-декодер
Категория термина
Внимание энкодер-декодер (Encoder-Decoder Attention) — это разновидность механизма перекрёстного внимания (Cross-Attention), применяемая в архитектуре трансформеров для связи между энкодером и декодером. Она позволяет декодеру при генерации выходной последовательности учитывать информацию, закодированную энкодером из входных данных.
🧠 Механизм работы:
- Энкодер преобразует входную последовательность (например, текст на исходном языке) в набор скрытых представлений (keys и values).
- Декодер на каждом шаге генерации формирует queries на основе уже сгенерированных токенов.
- В слое внимания энкодер-декодер вычисляется: Attention(Q,K,V)=softmax(QKTdk)VAttention(Q, K, V) = softmaxleft(frac{QK^T}{sqrt{d_k}}right) V
где
- QQ — запросы из декодера,
- K,VK, V — ключи и значения из энкодера.
- Результат подмешивается в скрытые состояния декодера, помогая учитывать контекст входных данных.
🔑 Особенности:
- Является ключевым элементом архитектуры Transformer, связывая два модуля (энкодер и декодер).
- Использует информацию между разными последовательностями (вход → выход).
- В отличие от Self-Attention, который работает внутри одной последовательности, здесь источник и цель разные.
📌 Примеры применения:
- Машинный перевод (NMT) — декодер обращается к информации из энкодера для корректного выбора слов на языке перевода.
- Текстовое суммирование — энкодер кодирует длинный текст, а декодер использует Encoder-Decoder Attention для генерации краткого изложения.
- Speech-to-Text — энкодер анализирует акустические признаки, а декодер формирует последовательность символов или слов.
- Text-to-Image генерация — текстовый энкодер создаёт эмбеддинги, а декодер (часто сверточный) генерирует изображение на основе внимания к тексту.
⚖️ Преимущества и недостатки:
Преимущества:
- Позволяет декодеру учитывать полный контекст исходной последовательности.
- Гибкий механизм — можно акцентировать внимание на разных частях входных данных.
- Улучшает качество генерации и переводов по сравнению с моделями без внимания.
Недостатки:
- Высокая вычислительная сложность при длинных последовательностях.
- Требует памяти для хранения матриц ключей и значений энкодера.
🧠 Связанные понятия:
- Self-Attention — внимание внутри одной последовательности.
- Cross-Attention — общий механизм, к которому относится Encoder-Decoder Attention.
- Multi-Head Attention — использование нескольких голов для параллельного анализа.
- Transformer — архитектура, где Encoder-Decoder Attention — центральный компонент.
💡 Вывод:
Encoder-Decoder Attention — это специализированная форма перекрёстного внимания, обеспечивающая связь между входными данными и процессом генерации выходной последовательности. Она делает возможным эффективное использование контекста и является краеугольным элементом трансформеров в задачах перевода, суммирования и мультимодальной генерации.