Толковый словарь по нейросетям и искусственному интеллекту
Аугментация данных
Категория термина
Аугментация данных (Data Augmentation) — это процесс искусственного увеличения объема обучающего набора данных за счёт генерации новых данных на основе уже имеющихся, с сохранением ключевых характеристик исходных примеров. Это позволяет повысить обобщающую способность модели и сократить риск переобучения, особенно когда исходный датасет ограничен по объему или разнообразию.
🔧 Как работает аугментация данных:
Аугментация применяется до или во время обучения, путём трансформации входных данных. Новые примеры не создаются вручную, а генерируются автоматически, часто в реальном времени. Методики могут быть как простыми (например, поворот изображения), так и сложными (например, генерация новых текстов с помощью LLM или GAN).
📸 Примеры аугментации:
1. В компьютерном зрении (CV):
- Поворот, отражение, масштабирование, обрезка, сдвиг.
- Изменение яркости, контраста, цвета, добавление шума.
- CutMix, MixUp — смешивание нескольких изображений.
2. В обработке текста (NLP):
- Перефразирование (paraphrasing) с помощью языковых моделей.
- Замена синонимов, удаление/перестановка слов.
- Back-translation — перевод на другой язык и обратно.
- Noise injection — добавление грамматических/лексических ошибок.
3. В аудиозаписях:
- Изменение скорости, высоты, добавление фонового шума.
- Перемешивание звуков, обрезка начала/конца.
4. В табличных данных:
- Добавление синтетических примеров с помощью SMOTE.
- Вариации числовых значений в пределах допустимого диапазона.
🎯 Цели и преимущества:
- Повышение устойчивости модели к шуму и реальным условиям.
- Борьба с переобучением (overfitting) при малом объёме данных.
- Балансировка классов (особенно при дисбалансе в задачах классификации).
- Универсализация модели для разных устройств и условий работы.
- Снижение необходимости сбора дорогостоящих реальных данных.
⚠️ Ограничения и риски:
- Чрезмерная или некачественная аугментация может исказить смысл данных.
- Сложные данные (например, медицинские снимки, юридические тексты) требуют более осторожного подхода.
- Неуместная аугментация может привести к ухудшению метрик модели.
🧪 Применение:
- Компьютерное зрение (CV): распознавание объектов, лиц, дорожных знаков.
- НЛП (NLP): классификация текста, чат-боты, перевод, генерация.
- Медицинские ИИ-системы: усиление ограниченных наборов МРТ/рентген снимков.
- Финансовые модели: генерация сценариев для анализа рисков.
📌 Связанные термины:
- Regularization: аугментация — один из способов регуляризации.
- Synthetic Data: часто создаются в рамках data augmentation.
- Transfer Learning: аугментация усиливает эффективность дообучения.
- Generative Models (GAN, VAE): могут использоваться для аугментации.
✅ Заключение:
Data Augmentation — это мощный и гибкий инструмент, позволяющий значительно повысить качество и устойчивость моделей машинного обучения без необходимости собирать огромные объемы реальных данных. Он широко применяется во всех областях ИИ, от компьютерного зрения до обработки текста и звука, и особенно полезен в условиях ограниченного объема или дисбаланса исходных данных.