Толковый словарь по нейросетям и искусственному интеллекту

Дисбаланс данных

Data Imbalance

Категория термина


Дисбаланс данных (Data Imbalance) — это ситуация в машинном обучении и анализе данных, когда количество примеров, принадлежащих разным классам, существенно различается. Обычно один или несколько классов представлены очень большим числом образцов (majority class), тогда как другие имеют крайне мало данных (minority class). Такой перекос приводит к тому, что модель начинает смещаться в сторону «сильных» классов и хуже распознаёт «слабые», что снижает качество классификации, особенно на редких, но важных примерах.

🧠 Основная идея:

  • В условиях дисбаланса стандартные алгоритмы машинного обучения стремятся минимизировать общую ошибку, игнорируя редкие классы.
  • Это приводит к ситуации, когда модель показывает высокую точность (accuracy), но фактически проваливает задачу на редких случаях (низкие значения recall и F1-score).

⚙️ Пример:

  1. В задаче медицинской диагностики есть 95% примеров со здоровыми пациентами и только 5% с заболеванием.
    • Модель может предсказывать, что все пациенты здоровы, и получить точность 95%.
    • Однако это бесполезно, так как больные пациенты (класс «minority») будут полностью проигнорированы.
  2. В задаче обнаружения мошенничества в транзакциях большинство операций легальные, а мошеннических — очень мало. Если модель будет игнорировать редкие случаи, её практическая ценность резко упадёт.

📌 Области применения и где это критично:

  • Медицина: выявление редких заболеваний.
  • Финансы: обнаружение мошеннических операций.
  • Компьютерное зрение: детекция объектов, встречающихся редко.
  • Кибербезопасность: распознавание атак среди большого количества нормального трафика.

🧩 Методы борьбы с Data Imbalance:

  1. Методы на уровне данных (Data-level):
    • Oversampling — увеличение числа примеров меньшинства (например, метод SMOTE).
    • Undersampling — уменьшение числа примеров большинства.
    • Data augmentation — искусственное расширение данных (например, в CV — повороты и искажения изображений).
  2. Методы на уровне алгоритмов (Algorithm-level):
    • Введение весов для классов (class weights) в функцию потерь.
    • Использование специализированных алгоритмов (например, Balanced Random Forest, XGBoost с учетом весов).
    • Cost-sensitive learning — назначение разной "стоимости ошибки" для разных классов.
  3. Методы на уровне оценки (Evaluation-level):
    • Использование метрик, устойчивых к дисбалансу: Precision, Recall, F1-score, AUC-ROC.
    • Избегать слепой ориентации только на accuracy.

⚖️ Проблемы и вызовы:

  • Oversampling может привести к переобучению.
  • Undersampling уменьшает разнообразие данных и может потерять важную информацию.
  • Слишком сильное "взвешивание" классов может ухудшить точность по majority-классу.

🧠 Связанные понятия:

  • Class Imbalance — синоним Data Imbalance.
  • F1-score, Precision, Recall — ключевые метрики для оценки моделей при дисбалансе.
  • Anomaly Detection — близкая область, когда редкий класс трактуется как аномалия.

💡 Вывод:

Data Imbalance — это одна из ключевых проблем в реальных задачах машинного обучения, где данные редко бывают идеально сбалансированы. Игнорирование этой проблемы приводит к созданию моделей, которые «работают на бумаге», но бесполезны на практике. Поэтому для качественных решений важно учитывать баланс классов, использовать специальные методы работы с дисбалансом и правильные метрики оценки.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 3 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)