Толковый словарь по нейросетям и искусственному интеллекту
Затухание весов
Категория термина
Затухание весов (Weight Decay) — это метод регуляризации нейросетей, при котором к функции потерь добавляется штраф за большие значения весов модели. Основная цель заключается в предотвращении переобучения, улучшении обобщающей способности и стабилизации обучения. По сути, Weight Decay реализует L2-регуляризацию, уменьшая значения параметров во время оптимизации.
🧠 Механизм работы:
- К стандартной функции потерь (например, кросс-энтропии) добавляется дополнительный член:
L_total = L_original + λ * ||w||²,
где λ — коэффициент регуляризации, ||w||² — сумма квадратов весов. - При обратном распространении ошибки веса уменьшаются не только под воздействием градиента, но и дополнительно «подтягиваются» к нулю.
- Это предотвращает слишком большие значения параметров, делая модель менее подверженной переобучению.
🔑 Основные особенности:
- Основан на L2-регуляризации.
- Влияет на веса, но не на смещения (bias).
- Часто используется вместе с методами оптимизации (SGD, AdamW).
- Параметр λ (или weight_decay в оптимизаторах) управляет силой регуляризации.
📌 Примеры применения:
- Классификация изображений — стабилизация моделей ResNet, DenseNet.
- Языковые модели — улучшение качества обобщения в BERT, GPT.
- Рекомендательные системы — предотвращение переобучения при большом количестве параметров.
- Распознавание речи — снижение избыточности в акустических моделях.
⚖️ Преимущества и недостатки:
Преимущества:
- Уменьшает переобучение.
- Делает модель более устойчивой.
- Прост в реализации и настройке.
Недостатки:
- Слишком сильное значение λ может привести к недообучению.
- Не всегда эффективно при очень больших моделях (требуются дополнительные методы регуляризации).
- Может замедлить сходимость обучения.
🧠 Связанные понятия:
- L2-регуляризация — математическая основа Weight Decay.
- Dropout — другой метод регуляризации.
- AdamW — оптимизатор с корректной реализацией Weight Decay.
- Early Stopping — альтернатива предотвращения переобучения.
💡 Вывод:
Затухание весов (Weight Decay) — это эффективный способ регуляризации нейросетей, который помогает контролировать рост параметров и улучшает способность модели к обобщению. Он является стандартной практикой в обучении глубоких моделей и применяется практически во всех современных архитектурах.
Хочешь, я потом отдельно объясню разницу между Weight Decay и L2-регуляризацией?