Толковый словарь по нейросетям и искусственному интеллекту
Блок трансформера
Категория термина
Блок трансформера (Transformers Block) — это базовый строительный элемент архитектуры трансформеров, включающий последовательность слоёв самовнимания (self-attention) и полносвязных слоёв (feed-forward), а также механизмы нормализации и остаточных соединений. Он позволяет модели эффективно обрабатывать последовательности данных и захватывать как локальные, так и глобальные зависимости.
🧠 Механизм работы:
- Self-Attention вычисляет взаимосвязи между всеми токенами входной последовательности.
- Residual Connection добавляет исходный вход к выходу слоя для стабилизации обучения.
- Layer Normalization нормализует активации для улучшения сходимости.
- Feed-Forward Layer применяет нелинейное преобразование к каждому токену отдельно.
- Процесс повторяется многократно, создавая глубокую модель с несколькими блоками трансформера.
🔑 Основные особенности:
- Позволяет учитывать зависимости между любыми позициями в последовательности.
- Использует остаточные соединения и нормализацию для стабильного обучения.
- Состоит из self-attention, feed-forward слоёв и механизмов нормализации.
- Может быть многослойным (stacked), что увеличивает выразительную способность модели.
📌 Примеры применения:
- BERT, GPT, T5 — каждый слой состоит из блоков трансформера.
- Машинный перевод — обработка последовательностей слов с учётом контекста.
- Обработка текста и NLP задачи — классификация, генерация, вопрос-ответ.
- Компьютерное зрение (ViT) — обработка патчей изображения через трансформер-блоки.
⚖️ Преимущества и недостатки:
Преимущества:
- Эффективно моделирует долгосрочные зависимости.
- Гибкая архитектура для различных задач и модальностей.
- Позволяет масштабировать модель добавлением блоков.
Недостатки:
- Высокие вычислительные затраты при длинных последовательностях.
- Требует большого объёма памяти для хранения активаций и весов.
- Сложнее обучать по сравнению с RNN или CNN для последовательностей.
🧠 Связанные понятия:
- Self-Attention — ключевой компонент блока для захвата зависимостей.
- Residual Connection — стабилизирует обучение глубоких моделей.
- Layer Normalization — улучшает сходимость и стабильность.
- Feed-Forward Layer — применяет нелинейные преобразования к токенам.
💡 Вывод:
Блок трансформера (Transformers Block) является основой современных языковых и мультимодальных моделей, обеспечивая мощную обработку последовательностей и способность моделировать сложные зависимости между элементами данных.