Толковый словарь по нейросетям и искусственному интеллекту
Экспоненциальное скользящее среднее
Категория термина
Экспоненциальное скользящее среднее (Exponential Moving Average, EMA) — техника, применяемая в обучении нейросетей для сглаживания и стабилизации весов модели. В отличие от обычного среднего, EMA придаёт больший вес последним значениям и меньший — более старым, что позволяет быстрее реагировать на новые изменения и при этом сохранять устойчивость.
🧠 Механизм работы
- Пусть есть веса модели θttheta_t на шаге tt.
- EMA обновляется по формуле:
где α∈[0,1)alpha in [0,1) — коэффициент сглаживания.
- При больших значениях αalpha модель «помнит» больше прошлых значений, а при меньших — быстрее реагирует на новые изменения.
🔑 Особенности
- EMA не меняет процесс обучения напрямую, а создаёт усреднённую копию модели, которая обычно показывает более стабильные результаты на валидации или инференсе.
- Часто используется в генеративных моделях (GAN, Diffusion), чтобы итоговое качество изображений было выше, чем у модели с «сырыми» весами.
- EMA может храниться параллельно с основной моделью и обновляться на каждом шаге.
📌 Примеры применения
- Stable Diffusion, GAN, VAE — EMA даёт более стабильные результаты при генерации.
- Оптимизация обучения — снижает риск переобучения на последних итерациях.
- NLP-модели — улучшает обобщающую способность в задачах классификации и генерации текста.
- Коммерческие пайплайны — почти всегда используют EMA-модель для финального инференса.
⚖️ Преимущества и недостатки
Преимущества:
- Снижает флуктуации в весах.
- Улучшает итоговое качество модели.
- Делает модель более устойчивой к шумным обновлениям градиентов.
Недостатки:
- Требует дополнительной памяти для хранения EMA-копии весов.
- Замедляет обучение (хоть и незначительно).
- Не всегда оправдан для маленьких моделей и простых задач.
🧠 Связанные понятия
Model Averaging — общий подход усреднения нескольких моделей или состояний.
Polyak Averaging — ранний метод усреднения параметров модели для стабилизации.
Momentum — техника в оптимизации, где используется сглаживание градиентов.
Gradient Noise — случайные колебания в обновлениях весов, которые EMA помогает сгладить.
Stochastic Weight Averaging (SWA) — метод усреднения весов на разных стадиях обучения.