Толковый словарь по нейросетям и искусственному интеллекту
Затухание (градиентов)
Категория термина
Vanishing (затухание градиентов) — это явление в глубоких нейронных сетях, при котором градиенты, вычисляемые в процессе обратного распространения ошибки (backpropagation), становятся чрезвычайно малыми. В результате веса слоёв, расположенных ближе к входу сети, обновляются очень медленно или практически не обновляются, что делает обучение глубоких моделей затруднительным или невозможным.
Это особенно актуально для рекуррентных нейронных сетей (RNN) и глубоких feed-forward сетей с сигмоидными или tanh-активациями, где производные функции активации малы по величине.
🔑 Причины затухания градиентов:
- Слишком глубокая сеть: многократное умножение маленьких производных при backpropagation.
- Использование сигмоидных или tanh-активаций: их производные ≤ 1, что уменьшает градиенты.
- Неправильная инициализация весов: слишком маленькие значения весов усугубляют затухание.
🧩 Примеры проявления:
- RNN не может эффективно обучиться на длинных последовательностях, теряя информацию о ранних шагах.
- Глубокая CNN плохо обучается на первых слоях, если применяются сигмоидные функции активации без нормализации.
📦 Методы борьбы с Vanishing Gradients:
| Метод | Описание |
|---|---|
| Использование ReLU и её модификаций (Leaky ReLU, GELU) | Производная не ограничена <1, что уменьшает затухание. |
| Batch Normalization / Layer Normalization | Стабилизирует распределение активаций и градиентов. |
| Инициализация весов (He, Xavier) | Обеспечивает нормальное масштабирование сигналов. |
| ResNet / Skip Connections (остаточные связи) | Позволяют градиенту напрямую проходить через сеть. |
| LSTM / GRU для RNN | Механизмы с "ячейками памяти", сохраняющие градиенты на длительных последовательностях. |
🔄 Связанные понятия:
- Exploding Gradients (Взрыв градиентов) — противоположная проблема, когда градиенты становятся слишком большими.
- Backpropagation — процесс распространения ошибки, где проявляется затухание.
- Activation Function — функции, влияющие на величину градиентов.
- Weight Initialization — корректная инициализация помогает уменьшить эффект.
- Residual Networks (ResNet) — архитектура, решающая проблему затухания в глубоких сетях.
📌 Вывод:
Vanishing Gradients — ключевая проблема глубокого обучения, которая может серьёзно замедлять или блокировать обучение нейросетей. Современные архитектуры, методы и функции активации были разработаны специально для её предотвращения, что позволяет эффективно тренировать глубокие и рекуррентные модели на больших и сложных данных.