Толковый словарь по нейросетям и искусственному интеллекту
Мягкие метки
Категория термина
Мягкие метки (Soft Targets) — это предсказания модели-учителя (Teacher Model) в формате распределения вероятностей по классам, используемые для обучения модели-студента (Student Model) в методе Knowledge Distillation. В отличие от жёстких меток (one-hot), мягкие метки содержат информацию о степени уверенности модели и взаимосвязях между классами.
🧠 Механизм работы:
- Учительская модель генерирует вероятностное распределение для каждого входного примера.
- Студентская модель обучается на комбинации двух источников:
- истинных меток (hard targets),
- мягких меток учителя (soft targets).
- Потери студента формируются как сумма кросс-энтропии по истинным меткам и потерь на соответствие soft targets.
- Температура (temperature) применяется для сглаживания распределения и усиления влияния менее вероятных классов.
🔑 Основные особенности:
- Передают дополнительную информацию о сложных зависимостях между классами.
- Улучшают обобщающую способность модели-студента.
- Температура позволяет регулировать "мягкость" распределения и масштаб влияния soft targets.
📌 Примеры применения:
- Компьютерное зрение — обучение компактных CNN с сохранением точности.
- NLP — distillation больших трансформеров (например, BERT → DistilBERT).
- Рекомендательные системы — ускорение работы моделей без потери качества.
- Обучение на малых датасетах — soft targets содержат больше информации, чем ограниченные hard labels.
⚖️ Преимущества и недостатки:
Преимущества:
- Улучшают обучение модели-студента.
- Снижают риск переобучения за счёт передачи знаний учителя.
- Позволяют использовать меньшие модели без значимой потери точности.
Недостатки:
- Требуется хорошо обученный учитель.
- Чувствительны к выбору температуры и веса потерь.
- Дополнительный этап генерации soft targets увеличивает время обучения.
🧠 Связанные понятия:
- Teacher Model — источник soft targets.
- Student Model — модель, обучающаяся на soft targets.
- Knowledge Distillation — метод передачи знаний через мягкие метки.
💡 Вывод:
Мягкие метки (Soft Targets) позволяют эффективно передавать знания от больших и точных моделей к более компактным, обеспечивая улучшенное обучение студента и высокую обобщающую способность.