Толковый словарь по нейросетям и искусственному интеллекту
Студентская модель
Категория термина
Студентская модель (Student Model) — это модель, которая обучается у учительской модели (Teacher Model) в рамках метода Knowledge Distillation. Студент старается воспроизвести поведение учителя, используя его предсказания (soft targets) в дополнение к истинным меткам, что позволяет компактной или менее сложной модели достичь высокой точности.
🧠 Механизм работы:
- Учительская модель заранее обучается и генерирует предсказания для обучающего набора данных.
- Студентская модель получает два источника сигнала: реальные метки и предсказания учителя.
- Потери студента формируются как комбинация кросс-энтропии по меткам и потерь на совпадение с soft targets.
- Во время обучения студент постепенно адаптируется к поведению учителя, сохраняя меньшую архитектуру и вычислительные требования.
🔑 Основные особенности:
- Компактная и легкая по сравнению с учителем.
- Использует soft targets для передачи знаний о распределении вероятностей.
- Может иметь иную архитектуру, чем учитель, при сохранении качества.
📌 Примеры применения:
- Компьютерное зрение — сжатие больших CNN для мобильных устройств.
- NLP — DistilBERT, TinyBERT и другие упрощённые трансформеры.
- Рекомендательные системы — ускорение вывода без потери точности.
- Edge-устройства — модели с низкими требованиями к памяти и мощности.
⚖️ Преимущества и недостатки:
Преимущества:
- Компактность и снижение вычислительных затрат.
- Высокое качество при меньших ресурсах.
- Возможность обучения на ограниченных устройствах.
Недостатки:
- Зависимость от качества учителя.
- Требуется дополнительная настройка температуры и весов потерь.
- Эффективность может снижаться при сильной разнице архитектур учителя и студента.
🧠 Связанные понятия:
- Teacher Model — модель-учитель, у которой студент учится.
- Knowledge Distillation — метод передачи знаний.
- Soft Targets — предсказания учителя, используемые для обучения студента.
💡 Вывод:
Студентская модель (Student Model) позволяет создавать компактные и эффективные модели, которые наследуют знания более сложных учителей, обеспечивая высокую точность при меньших вычислительных ресурсах.