Толковый словарь по нейросетям и искусственному интеллекту
L2-регуляризация
Категория термина
L2-регуляризация (L2 Regularization) — это метод регуляризации в машинном обучении, при котором к функции потерь добавляется штраф за слишком большие значения весов модели. Цель — предотвратить переобучение, сделать модель более устойчивой и сгладить процесс обучения. В отличие от L1-регуляризации, L2 стремится не обнулять веса, а равномерно уменьшать их величины, сохраняя более плавное распределение параметров.
🧠 Механизм работы:
- Добавляется член к функции потерь:
L_total = L_original + λ * Σ wᵢ²,
где λ — коэффициент регуляризации, wᵢ — веса модели. - На этапе обратного распространения ошибки градиент изменяется так, что веса дополнительно «подтягиваются» к нулю.
- Веса уменьшаются пропорционально их величине: большие веса уменьшаются сильнее, чем маленькие.
🔑 Основные особенности:
- Штрафует модель за большие веса, но не за смещения (bias).
- Способствует более равномерному распределению весов.
- В отличие от L1-регуляризации, не приводит к разреженности параметров (non-sparse solution).
- Используется почти во всех современных моделях.
📌 Примеры применения:
- Классификация текста и изображений — для уменьшения переобучения.
- Линейная и логистическая регрессия — для стабильности коэффициентов.
- Глубокие нейросети — в сочетании с Dropout и Early Stopping.
⚖️ Преимущества и недостатки:
Преимущества:
- Снижает риск переобучения.
- Упрощает модель, делая её более устойчивой.
- Сохраняет все признаки (не обнуляет их, как L1).
Недостатки:
- Может замедлять обучение при большом λ.
- Не всегда хорошо работает при данных с высокой разреженностью, где L1 может быть эффективнее.
- Требует подбора коэффициента регуляризации.
🧠 Связанные понятия:
- Weight Decay — очень близок к L2-регуляризации, но с нюансами реализации.
- L1-регуляризация (Lasso) — склонна обнулять коэффициенты.
- Elastic Net — комбинация L1 и L2-регуляризации.
- Dropout — альтернативный метод борьбы с переобучением.
💡 Вывод:
L2-регуляризация (L2 Regularization) — это базовый и широко используемый метод регуляризации, который предотвращает чрезмерный рост весов и улучшает способность модели к обобщению. Она является теоретической основой механизма Weight Decay и применяется практически во всех современных алгоритмах обучения.
🔎 Теперь ключевой момент: разница между L2-регуляризацией и Weight Decay.
- В классическом SGD они эквивалентны (Weight Decay = L2-регуляризация).
- В адаптивных оптимизаторах (Adam, RMSProp) поведение расходится:
- L2-регуляризация изменяет градиент, влияя на адаптивные шаги.
- Weight Decay напрямую уменьшает веса независимо от шага градиента.
Поэтому был создан AdamW, где Weight Decay реализован правильно и отделён от L2.