Толковый словарь по нейросетям и искусственному интеллекту
Маскированное языковое моделирование
Masked Language Modeling
MLM
Категория термина
Маскированное языковое моделирование (Masked Language Modeling, MLM) — это метод обучения языковых моделей, при котором часть токенов входного текста скрывается (маскируется), а задача модели — предсказать эти скрытые токены на основе контекста. Такой подход позволяет модели эффективно изучать зависимости между словами и понимать контекст, что делает его фундаментальным для трансформеров, таких как BERT.
🧠 Механизм работы:
- Выбирается случайная подмножество токенов входной последовательности, которые заменяются специальным маскирующим токеном [MASK].
- Модель получает последовательность с масками и использует оставшийся контекст для предсказания скрытых токенов.
- Потери вычисляются только для замаскированных токенов, обычно с использованием кросс-энтропии.
- После обучения модель может предсказывать недостающие слова, а также использоваться для других NLP задач через fine-tuning.
🔑 Основные особенности:
- Контекстное обучение
- MLM заставляет модель использовать как левый, так и правый контекст для предсказания слов.
- Неполная маскировка
- Обычно маскируется около 15% токенов, чтобы сохранять структуру текста и обеспечивать достаточный контекст.
- Self-Supervised Learning
- MLM относится к обучению без явных меток, поскольку используется только исходный текст.
📌 Примеры применения:
- BERT и производные модели
- MLM используется для предобучения моделей, которые затем применяются в задачах классификации текста, извлечения информации и QA.
- Заполнение пропусков в тексте
- Используется для автозаполнения, восстановления недостающих слов и генерации предложений.
- Fine-tuning для downstream задач
- После предобучения с MLM модели адаптируются к конкретным NLP задачам, улучшая производительность.
⚖️ Преимущества и недостатки:
Преимущества:- Позволяет изучать глубокие контекстные зависимости между словами.
- Не требует размеченных данных, что делает обучение масштабируемым.
- Обеспечивает универсальность предобученных моделей для разных задач NLP.
- Не подходит напрямую для генеративных задач, так как модель обучена предсказывать скрытые токены, а не продолжение текста.
- Требует большого объема данных для эффективного предобучения.
- Может быть медленным при обработке очень длинных последовательностей.
🧠 Связанные понятия:
- BERT — модель, предобученная с использованием MLM.
- Self-Supervised Learning — обучение без явных меток, к которому относится MLM.
- Masked Tokens — токены, которые скрываются для предсказания модели.
- Fine-tuning — адаптация предобученной MLM-модели к конкретным NLP задачам.