Толковый словарь по нейросетям и искусственному интеллекту
Разделение данных
Категория термина
Data Splitting (разделение данных) — это процесс деления доступного датасета на несколько подмножеств, чтобы обеспечить объективную оценку качества модели, предотвратить переобучение и настроить гиперпараметры. Наиболее часто используются три части:
- Обучающая выборка (Training set) – используется для обучения модели.
- Валидационная выборка (Validation set) – применяется для подбора гиперпараметров и предотвращения переобучения.
- Тестовая выборка (Test set) – предназначена для окончательной оценки модели на «новых» данных, не участвовавших в обучении.
📊 Пример типичного деления:
- 70% — обучение
- 15% — валидация
- 15% — тест
Или упрощённый вариант:
- 80% — обучение
- 20% — тест
🔄 Варианты разделения:
- Hold-out метод
Простое случайное деление. Пример (на Scikit-learn): - K-fold Cross Validation
Данные делятся на k частей. Модель обучается k раз, каждый раз используя одну из частей как валидационную. - Stratified Split
Сохраняет пропорции классов (особенно важно для несбалансированных данных). - Time Series Split
Для временных рядов используется последовательное разбиение (train → val → test), без перемешивания.
🧠 Зачем нужно разделение:
- Оценка обобщающей способности модели
- Выявление переобучения (overfitting)
- Настройка гиперпараметров на независимых данных
- Справедливая метрика качества — тестовая выборка не должна влиять на обучение
📌 Ошибки, которых стоит избегать:
- Утечка данных (Data Leakage): если тестовая информация «просочилась» в обучение.
- Использование тестовой выборки на этапе подбора гиперпараметров
- Слишком маленькие тестовые выборки — могут давать нестабильные метрики.
📚 Где применяется:
- При обучении любых моделей ИИ или машинного обучения
- В AutoML — автоматизировано
- В MLOps пайплайнах
- При A/B тестировании моделей в продакшене
✅ Заключение:
Data Splitting — это основа честного обучения и оценки моделей. Без правильного разделения невозможно достоверно оценить, как модель будет вести себя на реальных данных. Это первый шаг к созданию надёжных, масштабируемых и обобщающих моделей машинного обучения.