Толковый словарь по нейросетям и искусственному интеллекту

Затухание (градиентов)

Vanishing (Gradients)

Категория термина


Vanishing (затухание градиентов) — это явление в глубоких нейронных сетях, при котором градиенты, вычисляемые в процессе обратного распространения ошибки (backpropagation), становятся чрезвычайно малыми. В результате веса слоёв, расположенных ближе к входу сети, обновляются очень медленно или практически не обновляются, что делает обучение глубоких моделей затруднительным или невозможным.

Это особенно актуально для рекуррентных нейронных сетей (RNN) и глубоких feed-forward сетей с сигмоидными или tanh-активациями, где производные функции активации малы по величине.


🔑 Причины затухания градиентов:

  1. Слишком глубокая сеть: многократное умножение маленьких производных при backpropagation.
  2. Использование сигмоидных или tanh-активаций: их производные ≤ 1, что уменьшает градиенты.
  3. Неправильная инициализация весов: слишком маленькие значения весов усугубляют затухание.

🧩 Примеры проявления:

  • RNN не может эффективно обучиться на длинных последовательностях, теряя информацию о ранних шагах.
  • Глубокая CNN плохо обучается на первых слоях, если применяются сигмоидные функции активации без нормализации.

📦 Методы борьбы с Vanishing Gradients:

МетодОписание
Использование ReLU и её модификаций (Leaky ReLU, GELU)Производная не ограничена <1, что уменьшает затухание.
Batch Normalization / Layer NormalizationСтабилизирует распределение активаций и градиентов.
Инициализация весов (He, Xavier)Обеспечивает нормальное масштабирование сигналов.
ResNet / Skip Connections (остаточные связи)Позволяют градиенту напрямую проходить через сеть.
LSTM / GRU для RNNМеханизмы с "ячейками памяти", сохраняющие градиенты на длительных последовательностях.

🔄 Связанные понятия:

  • Exploding Gradients (Взрыв градиентов) — противоположная проблема, когда градиенты становятся слишком большими.
  • Backpropagation — процесс распространения ошибки, где проявляется затухание.
  • Activation Function — функции, влияющие на величину градиентов.
  • Weight Initialization — корректная инициализация помогает уменьшить эффект.
  • Residual Networks (ResNet) — архитектура, решающая проблему затухания в глубоких сетях.

📌 Вывод:

Vanishing Gradients — ключевая проблема глубокого обучения, которая может серьёзно замедлять или блокировать обучение нейросетей. Современные архитектуры, методы и функции активации были разработаны специально для её предотвращения, что позволяет эффективно тренировать глубокие и рекуррентные модели на больших и сложных данных.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

Метки

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)