Толковый словарь по нейросетям и искусственному интеллекту
Трансформер-декодер
Категория термина
Трансформер-декодер (Transformer Decoder) — это вторая ключевая часть архитектуры трансформера, отвечающая за генерацию выходной последовательности на основе информации, закодированной энкодером, и уже сгенерированных ранее элементов. Декодер обычно используется в задачах последовательной генерации текста, перевода, суммирования и других задачах обработки последовательностей.
🧠 Архитектура трансформер-декодера:
Каждый слой декодера состоит из трёх основных компонентов:
- Masked Self-Attention
- Позволяет учитывать ранее сгенерированные токены.
- Маска предотвращает «заглядывание вперёд», чтобы модель не использовала будущие слова, которые ещё не предсказаны.
- Encoder-Decoder Attention
- Механизм внимания, фокусирующийся на выходах энкодера.
- Декодер сопоставляет свои запросы (queries) с ключами и значениями (keys, values) из энкодера, чтобы правильно интерпретировать входную последовательность.
- Feed-Forward Network (FFN)
- Полносвязный слой с нелинейностью, применяемый к каждому элементу последовательности.
- Повышает выразительность модели.
Каждый блок сопровождается нормализацией слоя (Layer Normalization) и резидентными соединениями (Skip Connections) для стабилизации обучения.
🔑 Основные особенности:
- Работает пошагово, предсказывая следующий токен по уже сгенерированным.
- Использует маскирование, чтобы сохранить автогрессию.
- Обеспечивает связь между входной и выходной последовательностью через cross-attention.
📌 Примеры применения:
- Машинный перевод (NMT): энкодер анализирует предложение на исходном языке, а декодер генерирует перевод.
- Автоматическое суммирование: генерация краткого текста по длинному документу.
- Генерация текста (GPT): модели GPT состоят только из декодеров без энкодера, так как они обучаются предсказывать следующий токен.
- Мультимодальная генерация: например, в text-to-image декодер может выступать в роли генератора изображений, получая эмбеддинги текста.
⚖️ Преимущества и недостатки:
Преимущества:
- Универсальность — подходит для любых задач генерации последовательностей.
- Маскирование обеспечивает корректный автогрессивный процесс.
- Encoder-Decoder Attention позволяет эффективно использовать входные данные.
Недостатки:
- Последовательная генерация делает процесс относительно медленным.
- Высокие вычислительные затраты при длинных последовательностях.
🧠 Связанные понятия:
- Transformer Encoder — часть трансформера, кодирующая входные данные.
- Masked Self-Attention — механизм внимания в декодере с маскированием будущих токенов.
- Cross-Attention — ключевая часть взаимодействия энкодера и декодера.
- GPT — архитектура только с декодером.
- BERT — архитектура только с энкодером.
💡 Вывод:
Transformer Decoder — это модуль трансформера, отвечающий за генерацию выходной последовательности, сочетающий маскированное самовнимание, энкодер-декодер внимание и feed-forward слои. Он является центральным элементом моделей для перевода, суммирования и генеративных задач, а также основой автогрессивных языковых моделей.