Толковый словарь по нейросетям и искусственному интеллекту
Функция потерь перекрёстной энтропии
Категория термина
Функция потерь перекрёстной энтропии (Cross-Entropy Loss) — это мера расхождения между истинным распределением классов и предсказанным распределением модели. Она широко используется в задачах классификации, включая бинарную и многоклассовую, так как напрямую оценивает, насколько вероятностные предсказания модели соответствуют реальным меткам.
🧠 Механизм работы:
- Для бинарной классификации (Binary Cross-Entropy):
где yiy_i — истинная метка (0 или 1), pip_i — предсказанная вероятность класса 1, NN — число примеров.
- Для многоклассовой классификации (Categorical Cross-Entropy):
где yiky_{ik} — индикатор того, принадлежит ли пример ii классу kk, pikp_{ik} — предсказанная вероятность для класса kk, KK — число классов.
🔑 Основные особенности:
- Штрафует модель сильнее, если она уверенно ошибается.
- Сильно связана с функцией Softmax на выходном слое.
- Дифференцируема, что позволяет использовать градиентные методы оптимизации.
- Прямая интерпретация: минимизация перекрёстной энтропии эквивалентна максимизации правдоподобия (Maximum Likelihood) предсказаний модели.
📌 Примеры применения:
- Бинарная классификация: спам/не спам, болен/здоров.
- Многоклассовая классификация: классификация изображений, языковые модели для предсказания следующего слова.
- Segmentation: оценка точности пиксельной классификации в задачах сегментации изображений.
- Обучение генеративных моделей: классификация токенов в трансформерах, GAN-дискриминаторы.
⚖️ Преимущества и недостатки:
Преимущества:
- Естественная функция потерь для вероятностных предсказаний.
- Подходит как для бинарной, так и для многоклассовой классификации.
- Дифференцируемость обеспечивает эффективное обучение с помощью градиентного спуска.
Недостатки:
- Чувствительна к несбалансированным классам; может отдавать предпочтение более частым классам.
- Требует аккуратной обработки нулевых и очень малых вероятностей, чтобы избежать численных проблем.
- Модель может быть чрезмерно уверенной в ошибочных предсказаниях без регуляризации.
🧠 Связанные понятия:
- Softmax — обычно применяется вместе с Cross-Entropy для многоклассовой классификации.
- Sigmoid — используется с Binary Cross-Entropy для двух классов.
- Maximum Likelihood Estimation (MLE) — минимизация перекрёстной энтропии эквивалентна максимизации правдоподобия.
- Label Smoothing — метод сглаживания меток для уменьшения переобучения.
💡 Вывод:
Функция потерь перекрёстной энтропии (Cross-Entropy Loss) — это фундаментальный инструмент обучения классификационных моделей, позволяющий эффективно оценивать расхождение между предсказанными и истинными вероятностями. Она обеспечивает стабильное и интерпретируемое обучение как в бинарных, так и в многоклассовых задачах.