Толковый словарь по нейросетям и искусственному интеллекту

Маскированное языковое моделирование

Masked Language Modeling
MLM

Категория термина


Маскированное языковое моделирование (Masked Language Modeling, MLM) — это метод обучения языковых моделей, при котором часть токенов входного текста скрывается (маскируется), а задача модели — предсказать эти скрытые токены на основе контекста. Такой подход позволяет модели эффективно изучать зависимости между словами и понимать контекст, что делает его фундаментальным для трансформеров, таких как BERT.

🧠 Механизм работы:

  1. Выбирается случайная подмножество токенов входной последовательности, которые заменяются специальным маскирующим токеном [MASK].
  2. Модель получает последовательность с масками и использует оставшийся контекст для предсказания скрытых токенов.
  3. Потери вычисляются только для замаскированных токенов, обычно с использованием кросс-энтропии.
  4. После обучения модель может предсказывать недостающие слова, а также использоваться для других NLP задач через fine-tuning.

🔑 Основные особенности:

  1. Контекстное обучение
    • MLM заставляет модель использовать как левый, так и правый контекст для предсказания слов.
  2. Неполная маскировка
    • Обычно маскируется около 15% токенов, чтобы сохранять структуру текста и обеспечивать достаточный контекст.
  3. Self-Supervised Learning
    • MLM относится к обучению без явных меток, поскольку используется только исходный текст.

📌 Примеры применения:

  1. BERT и производные модели
    • MLM используется для предобучения моделей, которые затем применяются в задачах классификации текста, извлечения информации и QA.
  2. Заполнение пропусков в тексте
    • Используется для автозаполнения, восстановления недостающих слов и генерации предложений.
  3. Fine-tuning для downstream задач
    • После предобучения с MLM модели адаптируются к конкретным NLP задачам, улучшая производительность.

⚖️ Преимущества и недостатки:

Преимущества:
  • Позволяет изучать глубокие контекстные зависимости между словами.
  • Не требует размеченных данных, что делает обучение масштабируемым.
  • Обеспечивает универсальность предобученных моделей для разных задач NLP.
Недостатки:
  • Не подходит напрямую для генеративных задач, так как модель обучена предсказывать скрытые токены, а не продолжение текста.
  • Требует большого объема данных для эффективного предобучения.
  • Может быть медленным при обработке очень длинных последовательностей.

🧠 Связанные понятия:

  • BERT — модель, предобученная с использованием MLM.
  • Self-Supervised Learning — обучение без явных меток, к которому относится MLM.
  • Masked Tokens — токены, которые скрываются для предсказания модели.
  • Fine-tuning — адаптация предобученной MLM-модели к конкретным NLP задачам.

💡 Вывод:

Masked Language Modeling (MLM) — это эффективный метод предобучения языковых моделей, который позволяет изучать контекстные зависимости между словами. Он является основой для таких моделей, как BERT, и обеспечивает универсальность предобученных трансформеров для широкого спектра задач обработки естественного языка.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 3 дня назад
  • Почему нет минусной перв сходства? 3 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 6 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)