Толковый словарь по нейросетям и искусственному интеллекту

Маска внимания

Attention Mask

Категория термина


Attention Mask — это вспомогательная структура данных (обычно тензор или матрица), применяемая в трансформерах и других моделях с механизмом внимания. Она используется для того, чтобы ограничить область фокусировки модели: указать, какие токены последовательности должны участвовать в вычислениях внимания, а какие — необходимо игнорировать. Такой подход критически важен при работе с последовательностями переменной длины, при автогенерации текста и при обучении моделей обработки естественного языка (NLP).


🧠 Основная идея:

  • Игнорирование паддингов: модели часто дополняют последовательности специальными символами [PAD], и маска позволяет не учитывать их в расчётах.
  • Каузальное внимание: в генеративных моделях (например, GPT) токены не могут "заглядывать вперёд". Attention Mask блокирует будущие позиции, сохраняя логику автогрессии.
  • Гибкое управление вниманием: маска позволяет выделять важные части последовательности или же исключать определённые токены из анализа.

⚙️ Пример работы:

Допустим, модель получает предложение:
[CLS] Привет мир [PAD] [PAD]

Маска внимания для этого ввода может выглядеть так:
[1, 1, 1, 0, 0]

Здесь 1 обозначает, что токен активен и должен учитываться в вычислениях, а 0 означает игнорирование токена.

В случае GPT для последовательности длиной 4 создаётся каузальная маска:

lua
[[1, 0, 0, 0], [1, 1, 0, 0], [1, 1, 1, 0], [1, 1, 1, 1]]

Каждый токен "видит" только себя и предыдущие, но не будущее.


📌 Применение:

  • Обработка естественного языка: BERT, GPT, T5 используют Attention Mask для корректной работы с текстами разной длины.
  • Мультимодальные модели: в CLIP и Diffusion-моделях маска помогает объединять текстовую и визуальную информацию.
  • Компьютерное зрение: Attention Mask может ограничивать внимание модели только на части изображения (например, на области интереса).
  • Обучение без утечек информации: предотвращает ситуацию, когда модель видит данные, которые использовать нельзя (например, будущие слова при генерации).

⚖️ Риски и особенности:

  • Неправильное задание маски может привести к тому, что модель начнёт учитывать паддинги, шум или смотреть в будущее, нарушая корректность.
  • Высокая вычислительная нагрузка: при работе с большими последовательностями матрицы внимания и масок становятся очень большими, что требует оптимизации.
  • Архитектурные различия: BERT, GPT, T5 используют разные виды масок (паддинг-маска, каузальная маска, комбинированная).

🧩 Применение на практике:

  • GPT и автогенерация текста — предотвращение утечки информации о будущих токенах.
  • BERT и классификация текста — исключение паддингов при обучении.
  • T5 и машинный перевод — комбинация масок для кодировщика и декодировщика.
  • Vision Transformers (ViT)маскирование областей изображения для выделения объектов.

💡 Вывод:

Attention Mask — это фундаментальный механизм в трансформерах, обеспечивающий корректность и эффективность вычислений внимания. Он делает возможной работу с последовательностями разной длины, поддерживает автогрессивное поведение в генеративных моделях и позволяет гибко управлять контекстом. Правильное применение Attention Mask играет решающую роль в точности и надежности современных моделей искусственного интеллекта.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)