Толковый словарь по нейросетям и искусственному интеллекту

Трансформер-декодер

Transformer Decoder

Категория термина


Трансформер-декодер (Transformer Decoder) — это вторая ключевая часть архитектуры трансформера, отвечающая за генерацию выходной последовательности на основе информации, закодированной энкодером, и уже сгенерированных ранее элементов. Декодер обычно используется в задачах последовательной генерации текста, перевода, суммирования и других задачах обработки последовательностей.


🧠 Архитектура трансформер-декодера:

Каждый слой декодера состоит из трёх основных компонентов:

  1. Masked Self-Attention
    • Позволяет учитывать ранее сгенерированные токены.
    • Маска предотвращает «заглядывание вперёд», чтобы модель не использовала будущие слова, которые ещё не предсказаны.
  2. Encoder-Decoder Attention
    • Механизм внимания, фокусирующийся на выходах энкодера.
    • Декодер сопоставляет свои запросы (queries) с ключами и значениями (keys, values) из энкодера, чтобы правильно интерпретировать входную последовательность.
  3. Feed-Forward Network (FFN)
    • Полносвязный слой с нелинейностью, применяемый к каждому элементу последовательности.
    • Повышает выразительность модели.

Каждый блок сопровождается нормализацией слоя (Layer Normalization) и резидентными соединениями (Skip Connections) для стабилизации обучения.


🔑 Основные особенности:

  • Работает пошагово, предсказывая следующий токен по уже сгенерированным.
  • Использует маскирование, чтобы сохранить автогрессию.
  • Обеспечивает связь между входной и выходной последовательностью через cross-attention.

📌 Примеры применения:

  • Машинный перевод (NMT): энкодер анализирует предложение на исходном языке, а декодер генерирует перевод.
  • Автоматическое суммирование: генерация краткого текста по длинному документу.
  • Генерация текста (GPT): модели GPT состоят только из декодеров без энкодера, так как они обучаются предсказывать следующий токен.
  • Мультимодальная генерация: например, в text-to-image декодер может выступать в роли генератора изображений, получая эмбеддинги текста.

⚖️ Преимущества и недостатки:

Преимущества:

  • Универсальность — подходит для любых задач генерации последовательностей.
  • Маскирование обеспечивает корректный автогрессивный процесс.
  • Encoder-Decoder Attention позволяет эффективно использовать входные данные.

Недостатки:

  • Последовательная генерация делает процесс относительно медленным.
  • Высокие вычислительные затраты при длинных последовательностях.

🧠 Связанные понятия:

  • Transformer Encoder — часть трансформера, кодирующая входные данные.
  • Masked Self-Attentionмеханизм внимания в декодере с маскированием будущих токенов.
  • Cross-Attention — ключевая часть взаимодействия энкодера и декодера.
  • GPT — архитектура только с декодером.
  • BERT — архитектура только с энкодером.

💡 Вывод:

Transformer Decoder — это модуль трансформера, отвечающий за генерацию выходной последовательности, сочетающий маскированное самовнимание, энкодер-декодер внимание и feed-forward слои. Он является центральным элементом моделей для перевода, суммирования и генеративных задач, а также основой автогрессивных языковых моделей.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)