Толковый словарь по нейросетям и искусственному интеллекту

Метрики качества

Quality Metrics

Категория термина


Термин на русском: Метрики качества
Термин на английском: Quality Metrics


📖 Определение:

Метрики качества — это количественные показатели, используемые для оценки эффективности, точности, надёжности и других характеристик работы моделей машинного обучения и систем искусственного интеллекта. Они позволяют объективно сравнивать алгоритмы, выявлять ошибки, производить тонкую настройку моделей и принимать решения об их внедрении.

Метрики качества выбираются в зависимости от задачи: классификация, регрессия, сегментация, генерация текста, перевод, распознавание объектов и т.д.


🧪 Примеры метрик по типам задач:

1. Классификация (Classification):

  • Accuracy (Точность, общая доля правильных ответов):
    Accuracy=True Positives+True NegativesTotal Samples\text{Accuracy} = \frac{\text{True Positives} + \text{True Negatives}}{\text{Total Samples}}
  • Precision (Прецизионность):
    Доля правильно предсказанных положительных среди всех предсказанных положительных.
  • Recall (Полнота):
    Доля правильно предсказанных положительных среди всех реальных положительных.
  • F1-Score:
    Гармоническое среднее между precision и recall. Особенно важно при несбалансированных данных.
  • AUC-ROC:
    Площадь под ROC-кривой. Показывает, насколько хорошо модель различает классы.

2. Регрессия (Regression):

  • Mean Absolute Error (MAE):
    Средняя абсолютная ошибка предсказаний.
  • Mean Squared Error (MSE):
    Средняя квадратичная ошибка — чувствительна к выбросам.
  • Root Mean Squared Error (RMSE):
    Корень из MSE — более интерпретируемый в тех же единицах, что и целевая переменная.
  • R² Score (Коэффициент детерминации):
    Показывает, насколько хорошо модель объясняет вариации в данных.

3. Машинный перевод / генерация текста:

  • BLEU (Bilingual Evaluation Understudy):
    Сравнивает с эталонным переводом, оценивая совпадения на уровне слов и фраз.
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation):
    Часто используется для оценки суммаризации.
  • METEOR:
    Учитывает синонимы, порядок слов, морфологию. Часто считается более точной метрикой, чем BLEU.
  • Perplexity (Озадаченность):
    Используется в языковых моделях для оценки вероятности правильного предсказания следующего слова.

4. Компьютерное зрение:

  • IoU (Intersection over Union):
    Применяется при детекции объектов и семантической сегментации.
  • mAP (mean Average Precision):
    Средняя точность по всем классам, широко используется в задачах object detection.

⚠️ Важные аспекты при использовании метрик:

  • Выбор метрик зависит от контекста. Например, при диагностике болезней важнее Recall (не пропустить больного), чем Accuracy.
  • Несбалансированные данные искажают метрики. Например, при 95% отрицательных примеров Accuracy может быть высокой даже у плохой модели.
  • Интерпретируемость и бизнес-цели важны. Иногда простая и понятная метрика (например, MAE) предпочтительнее сложной, но абстрактной.

🧠 Практическое применение:

  • Настройка гиперпараметров (через метрики на validation-наборе)
  • Мониторинг качества модели после деплоя
  • A/B тестирование моделей
  • Оценка успешности улучшений модели

📌 Заключение:

Метрики качества — основа оценки и сравнения моделей в машинном обучении. Грамотный выбор и интерпретация метрик позволяют не только точно оценивать производительность моделей, но и ориентироваться на реальные цели бизнеса или пользователя. В современном ИИ практически нет задач без метрик — они задают стандарты и помогают ориентироваться в успехах и провалах моделей.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)