Толковый словарь по нейросетям и искусственному интеллекту

L2-регуляризация

L2 Regularization

Категория термина


L2-регуляризация (L2 Regularization) — это метод регуляризации в машинном обучении, при котором к функции потерь добавляется штраф за слишком большие значения весов модели. Цель — предотвратить переобучение, сделать модель более устойчивой и сгладить процесс обучения. В отличие от L1-регуляризации, L2 стремится не обнулять веса, а равномерно уменьшать их величины, сохраняя более плавное распределение параметров.

🧠 Механизм работы:

  • Добавляется член к функции потерь:
    L_total = L_original + λ * Σ wᵢ²,
    где λ — коэффициент регуляризации, wᵢвеса модели.
  • На этапе обратного распространения ошибки градиент изменяется так, что веса дополнительно «подтягиваются» к нулю.
  • Веса уменьшаются пропорционально их величине: большие веса уменьшаются сильнее, чем маленькие.

🔑 Основные особенности:

  • Штрафует модель за большие веса, но не за смещения (bias).
  • Способствует более равномерному распределению весов.
  • В отличие от L1-регуляризации, не приводит к разреженности параметров (non-sparse solution).
  • Используется почти во всех современных моделях.

📌 Примеры применения:

⚖️ Преимущества и недостатки:

Преимущества:

  • Снижает риск переобучения.
  • Упрощает модель, делая её более устойчивой.
  • Сохраняет все признаки (не обнуляет их, как L1).

Недостатки:

  • Может замедлять обучение при большом λ.
  • Не всегда хорошо работает при данных с высокой разреженностью, где L1 может быть эффективнее.
  • Требует подбора коэффициента регуляризации.

🧠 Связанные понятия:

  • Weight Decay — очень близок к L2-регуляризации, но с нюансами реализации.
  • L1-регуляризация (Lasso) — склонна обнулять коэффициенты.
  • Elastic Net — комбинация L1 и L2-регуляризации.
  • Dropout — альтернативный метод борьбы с переобучением.

💡 Вывод:

L2-регуляризация (L2 Regularization) — это базовый и широко используемый метод регуляризации, который предотвращает чрезмерный рост весов и улучшает способность модели к обобщению. Она является теоретической основой механизма Weight Decay и применяется практически во всех современных алгоритмах обучения.


🔎 Теперь ключевой момент: разница между L2-регуляризацией и Weight Decay.

  • В классическом SGD они эквивалентны (Weight Decay = L2-регуляризация).
  • В адаптивных оптимизаторах (Adam, RMSProp) поведение расходится:
    • L2-регуляризация изменяет градиент, влияя на адаптивные шаги.
    • Weight Decay напрямую уменьшает веса независимо от шага градиента.
      Поэтому был создан AdamW, где Weight Decay реализован правильно и отделён от L2.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 3 дня назад
  • Почему нет минусной перв сходства? 3 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 6 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)