Толковый словарь по нейросетям и искусственному интеллекту
Головa внимания
Категория термина
Голова внимания (Attention Head) — это базовый элемент механизма многоголового внимания (Multi-Head Attention) в архитектуре трансформеров. Каждая голова внимания независимо вычисляет веса внимания для входных токенов и фокусируется на разных аспектах последовательности, позволяя модели выявлять разнообразные зависимости между элементами данных.
🧠 Механизм работы:
- Входные векторы преобразуются в три пространства: Query (Q), Key (K) и Value (V) с помощью линейных проекций.
- Вычисляется матрица внимания: Attention(Q,K,V)=softmax(QKTdk)Vtext{Attention}(Q, K, V) = text{softmax}left(frac{QK^T}{sqrt{d_k}}right) V
где dkd_k — размерность ключей.
- Каждая голова фокусируется на различных аспектах данных.
- Результаты всех голов объединяются (конкатенируются) и проходят линейную трансформацию для дальнейшей обработки.
🔑 Основные особенности:
- Позволяет модели параллельно изучать различные типы зависимостей между токенами.
- Повышает выразительность и способность трансформера к моделированию сложных структур.
- Используется во всех современных трансформерах: BERT, GPT, Vision Transformer.
- Обеспечивает гибкость и масштабируемость архитектуры.
📌 Примеры применения:
- NLP: анализ контекста и отношений между словами в тексте.
- CV: выявление зависимостей между регионами изображения (Vision Transformer).
- Аудио: выделение различных спектральных и временных характеристик сигналов.
- Робототехника: изучение сложных взаимодействий в сенсорных данных.
⚖️ Преимущества и недостатки:
Преимущества:
- Улучшает способность модели выявлять сложные зависимости.
- Обеспечивает параллельное внимание к разным аспектам данных.
- Повышает гибкость и выразительность архитектуры.
Недостатки:
- Увеличивает вычислительные затраты при большом числе голов.
- Возможна избыточность, когда разные головы обучаются схожим паттернам.
🧠 Связанные понятия:
- Multi-Head Attention — механизм, объединяющий несколько голов внимания для анализа различных аспектов последовательности.
- Query, Key, Value — три вида векторов, используемых в вычислении внимания.
- Transformers Block — основной строительный блок трансформеров, включающий слои внимания и FFN.
- Self-Attention — механизм внимания, где каждый токен взаимодействует со всеми остальными токенами последовательности.
- Sparse Attention — оптимизация внимания, ограничивающая число взаимодействующих токенов для снижения вычислительной нагрузки.
💡 Вывод:
Голова внимания (Attention Head) — ключевой компонент трансформеров, обеспечивающий возможность многогранного анализа данных. Совокупность нескольких голов позволяет модели строить богатые представления входной информации, делая архитектуру трансформеров мощной и универсальной для текста, изображений и сигналов.