Толковый словарь по нейросетям и искусственному интеллекту
Импульс
Категория термина
Импульс (Momentum) — это техника в градиентном спуске, направленная на ускорение сходимости и сглаживание колебаний градиентов. Она учитывает предыдущие обновления параметров, добавляя часть прошлой скорости к текущему шагу оптимизации, что помогает модели проходить через «плоские» участки функции потерь и избегать локальных минимумов.
🧠 Механизм работы:
- Вычисляются градиенты функции потерь для текущего батча.
- Рассчитывается скорость обновления как комбинация текущего градиента и накопленной предыдущей скорости: vt=βvt−1+(1−β)∇L(θt)v_t = beta v_{t-1} + (1 - beta) nabla L(theta_t)
где vtv_t — скорость на текущем шаге, βbeta — коэффициент импульса, ∇L(θt)nabla L(theta_t) — градиенты функции потерь.
- Параметры модели обновляются с использованием этой скорости: θt+1=θt−ηvttheta_{t+1} = theta_t - eta v_t
где ηeta — learning rate.
🔑 Основные особенности:
- Позволяет ускорять обучение на направлениях с устойчивым градиентом.
- Снижает колебания на крутых склонах функции потерь.
- Часто используется совместно с адаптивными оптимизаторами (Adam, RMSProp).
- Параметр βbeta (обычно 0.9) регулирует влияние прошлых шагов на текущее обновление.
📌 Примеры применения:
- Обучение глубоких CNN для ускорения сходимости при больших сетях.
- NLP-трансформеры для стабилизации градиентов при длинных последовательностях.
- GAN для сглаживания обучения генератора и дискриминатора.
- Робототехника и RL для ускорения обучения агента в сложных средах.
⚖️ Преимущества и недостатки:
Преимущества:
- Ускоряет сходимость градиентного спуска.
- Снижает колебания и шум градиентов.
- Помогает преодолевать плоские участки и локальные минимумы.
Недостатки:
- Не всегда совместим с маленькими learning rate, может вызвать «перескок» через минимум.
- Требует подбора коэффициента βbeta для оптимального эффекта.
- В некоторых случаях усложняет интерпретацию динамики обучения.
🧠 Связанные понятия:
- Gradient Descent — базовый метод обновления параметров через градиенты.
- Optimizer Step — применение вычисленных градиентов к параметрам модели.
- Learning Rate — коэффициент, определяющий масштаб обновления параметров.
- Nesterov Momentum — улучшенная версия импульса с прогнозированием будущего положения параметров.
💡 Вывод:
Импульс (Momentum) — это эффективная техника ускорения и стабилизации обучения нейросетей, позволяющая сглаживать колебания градиентов и ускорять сходимость, особенно в глубоких и сложных архитектурах.