Толковый словарь по нейросетям и искусственному интеллекту
Маскированное самовнимание
Категория термина
Маскированное самовнимание (Masked Self-Attention) — это модификация механизма самовнимания (self-attention), при которой модель ограничивается в доступе к части входной последовательности. Идея заключается в том, чтобы скрывать (маскировать) определённые элементы при вычислении внимания, предотвращая использование информации, которая не должна быть известна на текущем шаге.
🧠 Как работает маскированное самовнимание
- В стандартном self-attention каждый элемент последовательности может взаимодействовать со всеми остальными элементами.
- В masked self-attention к матрице внимания добавляется маска — специальная матрица с очень большими отрицательными значениями (например,
-∞), которая обнуляет вероятность «запрещённых» позиций после применения softmax. - Это гарантирует, что модель не будет смотреть на будущее (в случае авторегрессивных моделей) или будет фокусироваться только на доступных данных (в задачах предсказания пропусков).
🔑 Основные варианты маскирования
- Causal Masking (причинное маскирование)
- Каждый токен может «смотреть» только на предыдущие и текущий токен, но не на будущие.
- Используется в GPT и других авторегрессивных языковых моделях для генерации текста.
- Bidirectional Masking (двустороннее маскирование)
- Применяется в моделях типа BERT: случайные токены скрываются, и модель учится предсказывать их на основе контекста слева и справа.
- Custom Masking (пользовательские маски)
- Маскирование может применяться к определённым позициям (например, к пропущенным словам в предложении или к неизвестным областям изображения).
📌 Примеры применения
- Языковые модели:
- GPT использует causal masked self-attention, чтобы не «заглядывать» вперёд при генерации текста.
- BERT применяет bidirectional masked self-attention для восстановления замаскированных токенов.
- Computer Vision: в Masked Autoencoders (MAE) часть патчей изображения маскируется, а модель восстанавливает их.
- Speech Processing: скрытые фрагменты звукового сигнала используются для обучения моделей заполнению пробелов.
⚖️ Преимущества и недостатки
Преимущества:
- Обеспечивает корректность при авторегрессивной генерации.
- Позволяет обучать модели на неполных данных (восстановление пропусков).
- Гибкость — можно задавать разные схемы маскирования.
Недостатки:
- Увеличивает вычислительную сложность (маска должна применяться на каждом шаге).
- При агрессивном маскировании модель может хуже обучаться (мало доступного контекста).
🧠 Связанные понятия
- Self-Attention — стандартный механизм внимания, где каждый элемент учитывает все остальные.
- Causal Attention — внимание только к прошлым токенам.
- BERT — пример модели с двусторонним маскированием.
- GPT — пример модели с причинным маскированием.
- Masked Language Modeling (MLM) — обучение через предсказание скрытых токенов.
💡 Вывод
Masked Self-Attention — это техника ограничения самовнимания с помощью маски, предотвращающая доступ к «запрещённым» позициям последовательности. Она критически важна для авторегрессивных моделей (GPT), задач восстановления данных (BERT, MAE) и других сценариев, где необходимо контролировать доступность информации.