Толковый словарь по нейросетям и искусственному интеллекту

Экспоненциальное скользящее среднее

Exponential Moving Average
EMA

Категория термина


Экспоненциальное скользящее среднее (Exponential Moving Average, EMA) — техника, применяемая в обучении нейросетей для сглаживания и стабилизации весов модели. В отличие от обычного среднего, EMA придаёт больший вес последним значениям и меньший — более старым, что позволяет быстрее реагировать на новые изменения и при этом сохранять устойчивость.


🧠 Механизм работы

  • Пусть есть веса модели θttheta_t на шаге tt.
  • EMA обновляется по формуле:
θtEMA=α⋅θt−1EMA+(1−α)⋅θttheta^{EMA}_t = alpha cdot theta^{EMA}_{t-1} + (1 - alpha) cdot theta_t

где α∈[0,1)alpha in [0,1) — коэффициент сглаживания.

  • При больших значениях αalpha модель «помнит» больше прошлых значений, а при меньших — быстрее реагирует на новые изменения.

🔑 Особенности

  • EMA не меняет процесс обучения напрямую, а создаёт усреднённую копию модели, которая обычно показывает более стабильные результаты на валидации или инференсе.
  • Часто используется в генеративных моделях (GAN, Diffusion), чтобы итоговое качество изображений было выше, чем у модели с «сырыми» весами.
  • EMA может храниться параллельно с основной моделью и обновляться на каждом шаге.

📌 Примеры применения

  1. Stable Diffusion, GAN, VAE — EMA даёт более стабильные результаты при генерации.
  2. Оптимизация обучения — снижает риск переобучения на последних итерациях.
  3. NLP-модели — улучшает обобщающую способность в задачах классификации и генерации текста.
  4. Коммерческие пайплайны — почти всегда используют EMA-модель для финального инференса.

⚖️ Преимущества и недостатки

Преимущества:

  • Снижает флуктуации в весах.
  • Улучшает итоговое качество модели.
  • Делает модель более устойчивой к шумным обновлениям градиентов.

Недостатки:

  • Требует дополнительной памяти для хранения EMA-копии весов.
  • Замедляет обучение (хоть и незначительно).
  • Не всегда оправдан для маленьких моделей и простых задач.

🧠 Связанные понятия

Model Averaging — общий подход усреднения нескольких моделей или состояний.
Polyak Averaging — ранний метод усреднения параметров модели для стабилизации.
Momentum — техника в оптимизации, где используется сглаживание градиентов.
Gradient Noise — случайные колебания в обновлениях весов, которые EMA помогает сгладить.
Stochastic Weight Averaging (SWA) — метод усреднения весов на разных стадиях обучения.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 5 дней назад
  • Почему нет минусной перв сходства? 5 дней назад
  • Здравствуйте можно создать видео танцуешь из фото 7 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)