Толковый словарь по нейросетям и искусственному интеллекту
Кросс-энтропия
Категория термина
Кросс-энтропия (Cross-Entropy) — это функция потерь (loss function), широко используемая в машинном обучении и нейросетях для задач классификации, особенно когда требуется предсказать вероятности принадлежности объектов к определённым классам. Она измеряет разницу между истинным распределением вероятностей и предсказанным моделью распределением, оценивая, насколько хорошо модель прогнозирует правильный класс.
Кросс-энтропия особенно эффективна для многоклассовой классификации и является стандартом при обучении логистической регрессии, CNN, трансформеров и LLM.
🔍 Формула:
Для двух распределений pp (истинное) и qq (предсказанное моделью) кросс-энтропия вычисляется как:
H(p,q)=−∑ip(i)logq(i)H(p, q) = - \sum_{i} p(i) \log q(i)- p(i)p(i) — вероятность истинного класса ii (обычно one-hot вектор).
- q(i)q(i) — вероятность, предсказанная моделью для класса ii.
Для бинарной классификации используется бинарная кросс-энтропия:
L=−[ylog(y^)+(1−y)log(1−y^)]L = -[y \log(\hat{y}) + (1-y) \log(1-\hat{y})]где yy — истинная метка, y^\hat{y} — предсказанная вероятность.
🧪 Примеры применения:
- Классификация изображений (CNN): определение объектов на ImageNet, CIFAR-10 и других датасетах.
- Обработка текста (NLP, LLM): обучение моделей для предсказания следующего слова или токена.
- Распознавание речи: классификация фонем или слов в аудиосигналах.
- Рекомендательные системы: вероятностное предсказание предпочтений пользователя.
- GAN и вариационные автоэнкодеры (VAE): кросс-энтропия может использоваться в компонентах loss для улучшения качества генерации.
⚡ Преимущества использования Cross-Entropy:
- Чувствительность к вероятностным ошибкам: учитывает уверенность модели, а не только факт правильного или неправильного ответа.
- Стабильная сходимость: хорошо работает с градиентными методами оптимизации, такими как SGD или Adam.
- Простота и эффективность: легко реализуется для бинарных и многоклассовых задач.
- Связь с вероятностными моделями: соответствует максимизации правдоподобия (MLE) для классификации.
📌 Связанные термины:
- Loss Function (Функция потерь): кросс-энтропия — один из основных вариантов.
- Softmax: часто используется вместе с кросс-энтропией для нормализации выходов модели в вероятности.
- Gradient Descent / Optimizer: минимизация кросс-энтропии через шаги градиента.
- One-hot encoding: представление истинных меток классов для вычисления кросс-энтропии.
- Accuracy / Evaluation Metric: дополняет кросс-энтропию для оценки качества модели.
✅ Заключение:
Кросс-энтропия (Cross-Entropy) — это ключевая функция потерь для классификационных задач в ИИ, позволяющая моделям учитывать не только правильность предсказаний, но и уверенность в них. Она широко применяется в нейросетях, трансформерах, LLM, CNN и системах распознавания, обеспечивая стабильное и эффективное обучение с высокой точностью.