Толковый словарь по нейросетям и искусственному интеллекту
Маска внимания
Категория термина
Attention Mask — это вспомогательная структура данных (обычно тензор или матрица), применяемая в трансформерах и других моделях с механизмом внимания. Она используется для того, чтобы ограничить область фокусировки модели: указать, какие токены последовательности должны участвовать в вычислениях внимания, а какие — необходимо игнорировать. Такой подход критически важен при работе с последовательностями переменной длины, при автогенерации текста и при обучении моделей обработки естественного языка (NLP).
🧠 Основная идея:
- Игнорирование паддингов: модели часто дополняют последовательности специальными символами
[PAD], и маска позволяет не учитывать их в расчётах. - Каузальное внимание: в генеративных моделях (например, GPT) токены не могут "заглядывать вперёд". Attention Mask блокирует будущие позиции, сохраняя логику автогрессии.
- Гибкое управление вниманием: маска позволяет выделять важные части последовательности или же исключать определённые токены из анализа.
⚙️ Пример работы:
Допустим, модель получает предложение:
[CLS] Привет мир [PAD] [PAD]
Маска внимания для этого ввода может выглядеть так:
[1, 1, 1, 0, 0]
Здесь 1 обозначает, что токен активен и должен учитываться в вычислениях, а 0 означает игнорирование токена.
В случае GPT для последовательности длиной 4 создаётся каузальная маска:
Каждый токен "видит" только себя и предыдущие, но не будущее.
📌 Применение:
- Обработка естественного языка: BERT, GPT, T5 используют Attention Mask для корректной работы с текстами разной длины.
- Мультимодальные модели: в CLIP и Diffusion-моделях маска помогает объединять текстовую и визуальную информацию.
- Компьютерное зрение: Attention Mask может ограничивать внимание модели только на части изображения (например, на области интереса).
- Обучение без утечек информации: предотвращает ситуацию, когда модель видит данные, которые использовать нельзя (например, будущие слова при генерации).
⚖️ Риски и особенности:
- Неправильное задание маски может привести к тому, что модель начнёт учитывать паддинги, шум или смотреть в будущее, нарушая корректность.
- Высокая вычислительная нагрузка: при работе с большими последовательностями матрицы внимания и масок становятся очень большими, что требует оптимизации.
- Архитектурные различия: BERT, GPT, T5 используют разные виды масок (паддинг-маска, каузальная маска, комбинированная).
🧩 Применение на практике:
- GPT и автогенерация текста — предотвращение утечки информации о будущих токенах.
- BERT и классификация текста — исключение паддингов при обучении.
- T5 и машинный перевод — комбинация масок для кодировщика и декодировщика.
- Vision Transformers (ViT) — маскирование областей изображения для выделения объектов.
💡 Вывод:
Attention Mask — это фундаментальный механизм в трансформерах, обеспечивающий корректность и эффективность вычислений внимания. Он делает возможной работу с последовательностями разной длины, поддерживает автогрессивное поведение в генеративных моделях и позволяет гибко управлять контекстом. Правильное применение Attention Mask играет решающую роль в точности и надежности современных моделей искусственного интеллекта.