Толковый словарь по нейросетям и искусственному интеллекту
Заморозка текстового энкодера
Категория термина
Заморозка текстового энкодера (Text Encoder Freeze) — это техника обучения нейросетей, при которой параметры текстового энкодера (например, CLIP в Stable Diffusion) фиксируются и не обновляются во время тренировки. Такой подход используется для экономии вычислительных ресурсов и предотвращения «разрушения» уже хорошо обученного представления текста.
🧠 Механизм работы
- При обучении модели энкодер переводит текстовые промпты в векторы признаков.
- В режиме freeze веса энкодера остаются постоянными, а обучение затрагивает только другие части модели (например, UNet или дополнительные LoRA-слои).
- Это ускоряет процесс и снижает требования к памяти, так как уменьшается количество оптимизируемых параметров.
🔑 Особенности
- Применяется в интерфейсах Kohya_SS и других инструментах для дообучения Stable Diffusion.
- Может быть частичной (замораживаются только нижние слои) или полной.
- Используется в LoRA, Textual Inversion и fine-tuning.
📌 Примеры применения
- Обучение LoRA для генерации стиля художника без изменения понимания языка.
- Ускоренное обучение кастомного датасета с небольшим числом изображений.
- Снижение риска переобучения текста при настройке модели под конкретные запросы.
⚖️ Преимущества и недостатки
Преимущества:
- Уменьшает затраты GPU-памяти и ускоряет обучение.
- Сохраняет стабильное понимание текстовых промптов.
- Позволяет сосредоточить обучение на визуальной части модели.
Недостатки:
- Может ограничивать гибкость при работе с новыми терминами.
- Не подходит для задач, где необходимо дообучение на текстовом уровне.
- При слишком жёсткой заморозке результаты могут быть менее выразительными.
🧠 Связанные понятия
- Fine-tuning — дообучение модели на новых данных.
- LoRA (Low-Rank Adaptation) — метод дообучения с низкими ресурсными затратами.
- Textual Inversion — обучение новых текстовых токенов.
- Embedding — векторное представление текста или изображения.
- Transfer Learning — перенос знаний между моделями.
💡 Вывод
Text Encoder Freeze — это оптимизация процесса дообучения, позволяющая ускорить обучение и снизить ресурсоёмкость за счёт сохранения неизменных текстовых представлений. Этот подход особенно полезен для ускоренных экспериментов и ограниченных вычислительных условий.