Толковый словарь по нейросетям и искусственному интеллекту

Масштабирование температуры

Temperature Scaling

Категория термина


Масштабирование температуры (Temperature Scaling) — это техника управления вероятностным распределением выходов модели, при которой логиты (не нормализованные значения перед функцией Softmax) делятся на коэффициент температуры TT. Этот метод применяется для сглаживания или усиления распределения вероятностей, что напрямую влияет на разнообразие и уверенность модели в своих предсказаниях.

🧠 Механизм работы:

После получения логитов ziz_i модель применяет функцию Softmax с температурой:

P(yi)=ezi/T∑jezj/TP(y_i) = frac{e^{z_i / T}}{sum_j e^{z_j / T}}
  • Если T=1T = 1, модель ведёт себя как обычный Softmax.
  • Если T<1T < 1, распределение становится более «острым» (модель делает более уверенные предсказания, усиливается доминирующий класс).
  • Если T>1T > 1, распределение становится более «плоским» (увеличивается случайность, повышается разнообразие предсказаний).

🔑 Основные особенности:

  • Управляет балансом между детерминированностью и стохастичностью.
  • Прост в реализации, добавляется как дополнительный параметр без изменения архитектуры модели.
  • Используется как в генеративных моделях, так и для калибровки вероятностей классификаторов.

📌 Примеры применения:

  • Генерация текста (LLM, GPT): регулирует креативность и разнообразие ответов.
  • Обучение с учителем и дистилляция знаний: «смягчённые» вероятности (soft targets) позволяют эффективнее обучать студент-модели.
  • Калибровка классификаторов: улучшает интерпретируемость вероятностных предсказаний (например, в медицинской диагностике).
  • Рекомендательные системы: позволяет регулировать баланс между наиболее вероятными и редкими вариантами.

⚖️ Преимущества и недостатки:

Преимущества:

  • Простая и эффективная настройка предсказаний.
  • Позволяет контролировать разнообразие или уверенность модели.
  • Улучшает калибровку вероятностей.

Недостатки:

  • Требует подбора оптимального параметра TT.
  • При слишком больших значениях TT предсказания становятся почти случайными.
  • При слишком малых значениях TT модель может переоценивать один класс.

🧠 Связанные понятия:

  • Softmax — базовая функция, в которую вводится температура.
  • Top-k и Top-p sampling — альтернативные методы управления разнообразием генерации.
  • Knowledge Distillation — использование температуры для передачи знаний от учительской модели к студенту.
  • Калибровка вероятностей — настройка выходов модели для лучшей интерпретации как вероятностей.

💡 Вывод:

Масштабирование температуры (Temperature Scaling) — это ключевой инструмент контроля вероятностных распределений в машинном обучении. Оно позволяет находить баланс между уверенностью и разнообразием предсказаний, делает генеративные модели более гибкими и служит важным механизмом калибровки для практического применения нейросетей.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 3 дня назад
  • Почему нет минусной перв сходства? 3 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 6 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)