Толковый словарь по нейросетям и искусственному интеллекту
Многоголовое внимание
Категория термина
Многоголовое внимание (Multi-Head Attention) — это расширение механизма внимания (attention) в архитектуре трансформеров, при котором несколько параллельных блоков внимания («головы») обрабатывают информацию одновременно. Каждая «голова» учится фокусироваться на разных аспектах входной последовательности, что позволяет модели улавливать более сложные взаимосвязи между элементами данных.
🧠 Как работает многоголовое внимание
- Входные данные (векторы признаков) преобразуются в три матрицы: Query (Q), Key (K) и Value (V).
- Вместо одного механизма внимания вычисляется несколько (например, 8 или 16 голов), каждая со своими матрицами весов.
- Каждая «голова» независимо вычисляет attention, то есть распределение важности по элементам последовательности.
- Результаты всех голов конкатенируются и проходят через линейное преобразование, объединяясь в итоговый выход.
Формально:
MultiHead(Q,K,V)=Concat(head1,…,headh)WOtext{MultiHead}(Q,K,V) = text{Concat}(text{head}_1, dots, text{head}_h) W^Oгде каждая голова вычисляется как
headi=Attention(QWiQ,KWiK,VWiV)text{head}_i = text{Attention}(Q W_i^Q, K W_i^K, V W_i^V)🔑 Зачем нужны несколько голов
- Разные ракурсы внимания: одна голова может улавливать синтаксические зависимости (например, согласование подлежащего и сказуемого), другая — семантические (смысловые связи).
- Извлечение информации на разных масштабах: разные головы могут фокусироваться на близких или дальних токенах.
- Обогащение представлений: многоголовая структура делает модель более выразительной, чем одно внимание.
📌 Примеры применения
- Трансформеры (Transformer): Multi-Head Attention используется как в Encoder, так и в Decoder.
- BERT: применяет многоголовое внимание для понимания контекста в обе стороны.
- GPT: использует многоголовое внимание с причинным маскированием.
- Vision Transformers (ViT): применяют его для анализа изображений, разбитых на патчи.
⚖️ Преимущества и недостатки
Преимущества:
- Модель учится видеть разные типы зависимостей одновременно.
- Улучшает обобщающую способность.
- Повышает точность в задачах перевода, генерации текста, анализа изображений.
Недостатки:
- Увеличивает вычислительные затраты (несколько матриц для каждой головы).
- Возможна избыточность: не все головы учатся полезным паттернам.
🧠 Связанные понятия
- Self-Attention — базовый механизм внимания.
- Masked Self-Attention — ограниченная версия для авторегрессии.
- Cross-Attention — внимание между двумя последовательностями (например, текст ↔ изображение).
- Transformer Encoder/Decoder — основные блоки, где применяется многоголовое внимание.
💡 Вывод
Multi-Head Attention позволяет модели одновременно рассматривать данные под разными углами, улавливая разнообразные зависимости в последовательности. Это ключевой элемент архитектуры трансформеров, обеспечивающий их высокую эффективность в обработке текста, изображений и мультимодальных данных.