Толковый словарь по нейросетям и искусственному интеллекту
Метрика оценки
Категория термина
Метрика оценки (evaluation metric) — это количественный критерий, используемый для измерения качества работы модели машинного обучения на определённой задаче. Метрики позволяют объективно сравнивать разные модели, определять степень их точности, ошибок и способности к обобщению, а также контролировать прогресс обучения.
Метрики оценки различаются в зависимости от типа задачи:
- Классификация
- Регрессия
- Кластеризация
- Генерация текста или изображений и т.д.
Примеры метрик:
🧠 Для задач классификации:
- Accuracy (точность) — доля правильных предсказаний.
- Precision (точность положительных) — насколько часто положительный результат был правильным.
- Recall (полнота) — насколько хорошо модель находит все положительные случаи.
- F1-score — гармоническое среднее между precision и recall.
- AUC-ROC — площадь под ROC-кривой, измеряет способность различать классы.
📈 Для задач регрессии:
- MSE (среднеквадратичная ошибка) — чувствительна к большим ошибкам.
- MAE (средняя абсолютная ошибка) — интерпретируема и устойчива к выбросам.
- R² (коэффициент детерминации) — насколько хорошо модель объясняет дисперсию данных.
🗣️ Для генеративных задач (NLP, CV):
- BLEU, ROUGE, METEOR — для оценки качества машинного перевода или генерации текста.
- FID (Fréchet Inception Distance) — для оценки реалистичности сгенерированных изображений.
- Inception Score (IS) — используется для GAN-моделей.
Зачем нужны метрики:
- Для контроля качества модели на валидации и тесте
- Для подбора гиперпараметров и выбора лучшей модели
- Для визуализации прогресса обучения
- Для интерпретации ошибок и понимания слабых мест модели
Пример:
Модель классифицирует изображения как «кот» или «собака».
Вы предсказали 80 «кошек», из которых 60 действительно кошки, и 20 — нет.
В этом случае:
- Precision = 60 / 80 = 0.75
- Recall = 60 / (60 + сколько кошек не найдено)
Метрики дадут более точное представление, чем просто доля правильных.
Важные замечания:
- Одна и та же модель может показывать разное качество в зависимости от метрики.
- Выбор метрики зависит от контекста задачи. Например, при диагностике болезней важнее recall, а при фильтрации спама — precision.
- Нельзя сравнивать модели по разным метрикам, если они предназначены для разных целей.
Пример кода (scikit-learn):
Итог:
Метрики оценки — это не просто цифры, а фундаментальные инструменты для принятия решений в машинном обучении. Они позволяют разработчику понимать, насколько хорошо модель решает задачу, и помогают двигаться в сторону улучшения производительности, избегая слепых зон и переоценки модели.