Толковый словарь по нейросетям и искусственному интеллекту
Масштабированное скалярное произведение внимания
Категория термина
Масштабированное скалярное произведение внимания (Scaled Dot-Product Attention) — базовый механизм внимания, в котором для вычисления весов важности элементов последовательности используется скалярное произведение между запросами и ключами, с последующим масштабированием и нормализацией через softmax. Он лежит в основе современных трансформеров и позволяет моделям эффективно учитывать взаимосвязи между элементами входных данных.
🧠 Механизм работы
- Для каждого элемента входной последовательности вычисляются запросы (Q), ключи (K) и значения (V).
- Вычисляется скалярное произведение запросов и ключей: QKTQK^T.
- Результат делится на dksqrt{d_k}, где dkd_k — размерность ключей, чтобы предотвратить чрезмерно большие значения, влияющие на softmax.
- Применяется softmax для получения весов внимания.
- Каждое значение (V) масштабируется соответствующим весом и суммируется, формируя итоговое представление.
🔑 Особенности
- Масштабирование делением на dksqrt{d_k} стабилизирует обучение.
- Обеспечивает контекстное представление элементов последовательности.
- Используется как ядро для Self-Attention и Multi-Head Attention в трансформерах.
📌 Примеры применения
- NLP: перевод текста, суммаризация, генерация текста, извлечение информации.
- Компьютерное зрение: Vision Transformers для классификации изображений и сегментации.
- Мультимодальные модели: CLIP и DALL·E для связывания текста и изображений.
- Генеративные модели: Stable Diffusion использует внимание для синтеза изображений по текстовым подсказкам.
⚖️ Преимущества и недостатки
Преимущества:
- Позволяет эффективно учитывать контекст всей последовательности.
- Масштабирование предотвращает взрыв градиентов при больших размерностях.
- Основа для многоголовочного внимания, обеспечивая параллельное изучение разных аспектов.
Недостатки:
- Вычислительно и памятьёмко для длинных последовательностей.
- Чувствительно к качеству представлений запросов и ключей.
- Интерпретация весов внимания может быть сложной.
🧠 Связанные понятия
- Attention Mechanisms — общий принцип выделения значимых элементов.
- Self-Attention — внимание внутри одной последовательности.
- Multi-Head Attention — расширение с несколькими параллельными «головами».
- Query, Key, Value (QKV) — три основных компонента механизма внимания.
- Transformers — архитектура, полностью построенная на механизмах внимания.
💡 Вывод
Scaled Dot-Product Attention — фундаментальный блок современных трансформеров, обеспечивающий контекстное и дифференцируемое внимание к элементам последовательности. Он стабилизирует обучение и позволяет моделям эффективно использовать взаимосвязи между входными данными в NLP, CV и мультимодальных задачах.