Толковый словарь по нейросетям и искусственному интеллекту

Маскированное самовнимание

Masked Self-Attention

Категория термина


Маскированное самовнимание (Masked Self-Attention) — это модификация механизма самовнимания (self-attention), при которой модель ограничивается в доступе к части входной последовательности. Идея заключается в том, чтобы скрывать (маскировать) определённые элементы при вычислении внимания, предотвращая использование информации, которая не должна быть известна на текущем шаге.


🧠 Как работает маскированное самовнимание

  • В стандартном self-attention каждый элемент последовательности может взаимодействовать со всеми остальными элементами.
  • В masked self-attention к матрице внимания добавляется маска — специальная матрица с очень большими отрицательными значениями (например, -∞), которая обнуляет вероятность «запрещённых» позиций после применения softmax.
  • Это гарантирует, что модель не будет смотреть на будущее (в случае авторегрессивных моделей) или будет фокусироваться только на доступных данных (в задачах предсказания пропусков).

🔑 Основные варианты маскирования

  1. Causal Masking (причинное маскирование)
    • Каждый токен может «смотреть» только на предыдущие и текущий токен, но не на будущие.
    • Используется в GPT и других авторегрессивных языковых моделях для генерации текста.
  2. Bidirectional Masking (двустороннее маскирование)
    • Применяется в моделях типа BERT: случайные токены скрываются, и модель учится предсказывать их на основе контекста слева и справа.
  3. Custom Masking (пользовательские маски)
    • Маскирование может применяться к определённым позициям (например, к пропущенным словам в предложении или к неизвестным областям изображения).

📌 Примеры применения

  • Языковые модели:
    • GPT использует causal masked self-attention, чтобы не «заглядывать» вперёд при генерации текста.
    • BERT применяет bidirectional masked self-attention для восстановления замаскированных токенов.
  • Computer Vision: в Masked Autoencoders (MAE) часть патчей изображения маскируется, а модель восстанавливает их.
  • Speech Processing: скрытые фрагменты звукового сигнала используются для обучения моделей заполнению пробелов.

⚖️ Преимущества и недостатки

Преимущества:

  • Обеспечивает корректность при авторегрессивной генерации.
  • Позволяет обучать модели на неполных данных (восстановление пропусков).
  • Гибкость — можно задавать разные схемы маскирования.

Недостатки:

  • Увеличивает вычислительную сложность (маска должна применяться на каждом шаге).
  • При агрессивном маскировании модель может хуже обучаться (мало доступного контекста).

🧠 Связанные понятия

  • Self-Attention — стандартный механизм внимания, где каждый элемент учитывает все остальные.
  • Causal Attention — внимание только к прошлым токенам.
  • BERT — пример модели с двусторонним маскированием.
  • GPT — пример модели с причинным маскированием.
  • Masked Language Modeling (MLM) — обучение через предсказание скрытых токенов.

💡 Вывод

Masked Self-Attention — это техника ограничения самовнимания с помощью маски, предотвращающая доступ к «запрещённым» позициям последовательности. Она критически важна для авторегрессивных моделей (GPT), задач восстановления данных (BERT, MAE) и других сценариев, где необходимо контролировать доступность информации.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 3 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)