Толковый словарь по нейросетям и искусственному интеллекту
Взрыв градиентов
Категория термина
Exploding Gradients (взрыв градиентов) — это явление в глубоких нейронных сетях, при котором градиенты, вычисляемые в процессе обратного распространения ошибки (backpropagation), становятся чрезмерно большими. В результате веса сети обновляются слишком резко, что может привести к нестабильности обучения, численной нестабильности и невозможности сходимости модели.
Чаще всего проблема проявляется в глубоких сетях или рекуррентных нейронных сетях (RNN) при длинных последовательностях, когда многократное умножение больших значений производных приводит к экспоненциальному росту градиентов.
🔑 Причины взрыва градиентов:
- Глубокая архитектура: многократное умножение весов и производных функций активации.
- Неправильная инициализация весов: слишком большие начальные веса увеличивают градиенты.
- Использование функций активации без ограничения диапазона производных: например, ReLU может давать большие значения при больших входах.
🧩 Примеры проявления:
- Модель начинает выдавать NaN или бесконечные значения во время обучения.
- Потери (loss) резко скачут или становятся неустойчивыми.
- Сеть не способна сходиться, несмотря на корректно выбранный learning rate.
📦 Методы борьбы с Exploding Gradients:
| Метод | Описание |
|---|---|
| Gradient Clipping (обрезка градиентов) | Ограничивает максимальное значение градиента, предотвращая резкие обновления весов. |
| Инициализация весов (Xavier, He) | Поддерживает градиенты в разумных пределах при старте обучения. |
| Использование нормализации (BatchNorm / LayerNorm) | Стабилизирует распределение активаций и градиентов. |
| Residual Connections (остаточные связи) | Помогают контролировать величину градиента в глубоких сетях. |
| Снижение learning rate | Позволяет уменьшить шаг обновления и избежать резких скачков. |
🔄 Связанные понятия:
- Vanishing Gradients (затухание градиентов) — противоположная проблема.
- Backpropagation — процесс, в котором возникают взрыв и затухание градиентов.
- Gradient Clipping — метод борьбы с взрывом градиентов.
- Weight Initialization — влияет на величину градиентов.
- Deep Networks / RNN — типы сетей, наиболее подверженные взрыву градиентов.
📌 Вывод:
Exploding Gradients — это серьёзная проблема глубокого обучения, особенно в рекуррентных и глубоких архитектурах. Контроль величины градиентов через инициализацию, нормализацию, остаточные связи и обрезку градиентов позволяет стабилизировать обучение и повысить эффективность нейронных сетей.