Толковый словарь по нейросетям и искусственному интеллекту

Метрика оценки

Evaluation Metric

Категория термина


Метрика оценки (evaluation metric) — это количественный критерий, используемый для измерения качества работы модели машинного обучения на определённой задаче. Метрики позволяют объективно сравнивать разные модели, определять степень их точности, ошибок и способности к обобщению, а также контролировать прогресс обучения.

Метрики оценки различаются в зависимости от типа задачи:


Примеры метрик:

🧠 Для задач классификации:

  • Accuracy (точность) — доля правильных предсказаний.
  • Precision (точность положительных) — насколько часто положительный результат был правильным.
  • Recall (полнота) — насколько хорошо модель находит все положительные случаи.
  • F1-score — гармоническое среднее между precision и recall.
  • AUC-ROC — площадь под ROC-кривой, измеряет способность различать классы.

📈 Для задач регрессии:

  • MSE (среднеквадратичная ошибка) — чувствительна к большим ошибкам.
  • MAE (средняя абсолютная ошибка) — интерпретируема и устойчива к выбросам.
  • R² (коэффициент детерминации) — насколько хорошо модель объясняет дисперсию данных.

🗣️ Для генеративных задач (NLP, CV):

  • BLEU, ROUGE, METEOR — для оценки качества машинного перевода или генерации текста.
  • FID (Fréchet Inception Distance) — для оценки реалистичности сгенерированных изображений.
  • Inception Score (IS) — используется для GAN-моделей.

Зачем нужны метрики:

  • Для контроля качества модели на валидации и тесте
  • Для подбора гиперпараметров и выбора лучшей модели
  • Для визуализации прогресса обучения
  • Для интерпретации ошибок и понимания слабых мест модели

Пример:

Модель классифицирует изображения как «кот» или «собака».
Вы предсказали 80 «кошек», из которых 60 действительно кошки, и 20 — нет.
В этом случае:

  • Precision = 60 / 80 = 0.75
  • Recall = 60 / (60 + сколько кошек не найдено)
    Метрики дадут более точное представление, чем просто доля правильных.

Важные замечания:

  • Одна и та же модель может показывать разное качество в зависимости от метрики.
  • Выбор метрики зависит от контекста задачи. Например, при диагностике болезней важнее recall, а при фильтрации спама — precision.
  • Нельзя сравнивать модели по разным метрикам, если они предназначены для разных целей.

Пример кода (scikit-learn):

from sklearn.metrics import accuracy_score, f1_score accuracy = accuracy_score(y_true, y_pred) f1 = f1_score(y_true, y_pred)

Итог:

Метрики оценки — это не просто цифры, а фундаментальные инструменты для принятия решений в машинном обучении. Они позволяют разработчику понимать, насколько хорошо модель решает задачу, и помогают двигаться в сторону улучшения производительности, избегая слепых зон и переоценки модели.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)