Толковый словарь по нейросетям и искусственному интеллекту

Масштабированное скалярное произведение внимания

Scaled Dot-Product Attention

Категория термина


Масштабированное скалярное произведение внимания (Scaled Dot-Product Attention) — базовый механизм внимания, в котором для вычисления весов важности элементов последовательности используется скалярное произведение между запросами и ключами, с последующим масштабированием и нормализацией через softmax. Он лежит в основе современных трансформеров и позволяет моделям эффективно учитывать взаимосвязи между элементами входных данных.

🧠 Механизм работы

  1. Для каждого элемента входной последовательности вычисляются запросы (Q), ключи (K) и значения (V).
  2. Вычисляется скалярное произведение запросов и ключей: QKTQK^T.
  3. Результат делится на dksqrt{d_k}, где dkd_k — размерность ключей, чтобы предотвратить чрезмерно большие значения, влияющие на softmax.
  4. Применяется softmax для получения весов внимания.
  5. Каждое значение (V) масштабируется соответствующим весом и суммируется, формируя итоговое представление.

🔑 Особенности

  • Масштабирование делением на dksqrt{d_k} стабилизирует обучение.
  • Обеспечивает контекстное представление элементов последовательности.
  • Используется как ядро для Self-Attention и Multi-Head Attention в трансформерах.

📌 Примеры применения

  • NLP: перевод текста, суммаризация, генерация текста, извлечение информации.
  • Компьютерное зрение: Vision Transformers для классификации изображений и сегментации.
  • Мультимодальные модели: CLIP и DALL·E для связывания текста и изображений.
  • Генеративные модели: Stable Diffusion использует внимание для синтеза изображений по текстовым подсказкам.

⚖️ Преимущества и недостатки

Преимущества:

  • Позволяет эффективно учитывать контекст всей последовательности.
  • Масштабирование предотвращает взрыв градиентов при больших размерностях.
  • Основа для многоголовочного внимания, обеспечивая параллельное изучение разных аспектов.

Недостатки:

  • Вычислительно и памятьёмко для длинных последовательностей.
  • Чувствительно к качеству представлений запросов и ключей.
  • Интерпретация весов внимания может быть сложной.

🧠 Связанные понятия

  • Attention Mechanisms — общий принцип выделения значимых элементов.
  • Self-Attention — внимание внутри одной последовательности.
  • Multi-Head Attention — расширение с несколькими параллельными «головами».
  • Query, Key, Value (QKV) — три основных компонента механизма внимания.
  • Transformers — архитектура, полностью построенная на механизмах внимания.

💡 Вывод

Scaled Dot-Product Attention — фундаментальный блок современных трансформеров, обеспечивающий контекстное и дифференцируемое внимание к элементам последовательности. Он стабилизирует обучение и позволяет моделям эффективно использовать взаимосвязи между входными данными в NLP, CV и мультимодальных задачах.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 4 дня назад
  • Почему нет минусной перв сходства? 4 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 7 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)