Толковый словарь по нейросетям и искусственному интеллекту

Дистилляция знаний

Knowledge Distillation

Категория термина


Дистилляция знаний (Knowledge Distillation) — это метод в машинном обучении, при котором знания, полученные большой и сложной моделью (называемой «учителем»), передаются более компактной и быстрой модели («студенту»). Основная идея заключается в том, чтобы использовать предсказания учителя (не только правильные ответы, но и распределение вероятностей по классам) как дополнительную информацию для обучения студента. Это позволяет создать лёгкие модели, которые сохраняют высокую точность при меньших вычислительных затратах.

🧠 Механизм работы:

  1. Тренируется мощная модель-учитель (Teacher Model), например, глубокая нейросеть.
  2. Учитель генерирует «мягкие метки» (soft labels) — вероятностное распределение выходов вместо бинарных правильных ответов.
  3. Модель-студент (Student Model) обучается одновременно на реальных метках и на выходах учителя.
  4. Используется параметр температура (T) в softmax, чтобы сделать распределение вероятностей более сглаженным и информативным.
  5. После обучения студент становится компактным, быстрым и пригодным для работы в условиях ограниченных ресурсов.

🔑 Основные подходы:

  1. Logit-based Distillation — обучение на распределении вероятностей учителя (soft targets).
  2. Feature-based Distillation — студент повторяет внутренние представления (эмбеддинги) учителя.
  3. Response-based Distillation — студент учится имитировать выходные предсказания учителя.
  4. Attention Transfer — копирование карт внимания (attention maps) из модели-учителя.

📌 Примеры применения:

  1. Мобильные приложения
    • Сжатие моделей компьютерного зрения (например, MobileNet, TinyBERT) для смартфонов.
  2. Нейросети для NLP
    • DistilBERT — уменьшенная версия BERT, обученная с помощью дистилляции.
  3. Компьютерное зрение
    • Сжатие ResNet или EfficientNet для задач классификации и детекции объектов.
  4. Edge computing и IoT
    • Развёртывание на устройствах с ограниченными ресурсами (камеры, датчики, роботы).

⚖️ Преимущества и недостатки:

Преимущества:
  • Сокращение размера модели без сильной потери качества.
  • Ускорение инференса (предсказаний).
  • Эффективное использование знаний крупной модели.
  • Возможность работать на мобильных и встраиваемых устройствах.
Недостатки:
  • Необходимость предварительно обучить модель-учителя.
  • Иногда студент не может полностью воспроизвести знания учителя.
  • Качество зависит от архитектуры студента и качества данных.

🧠 Связанные понятия:

  • Model Compression — общий термин для методов уменьшения моделей (quantization, pruning, distillation).
  • Pruning — удаление незначимых весов и связей.
  • Quantization — уменьшение точности весов (например, с float32 до int8).
  • Transfer Learning — использование знаний одной модели для другой задачи, пересекается с дистилляцией.

💡 Вывод:

Knowledge Distillation — это мощный метод сжатия моделей, позволяющий сохранить большую часть знаний крупной нейросети в более компактной и быстрой модели. Он стал ключевой технологией для NLP, компьютерного зрения и edge computing, обеспечивая баланс между точностью и эффективностью.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)