Толковый словарь по нейросетям и искусственному интеллекту
Текстовая инверсия
Категория термина
Текстовая инверсия (Textual Inversion) — метод адаптации генеративных моделей, позволяющий обучать новые концепции, стили или объекты и представлять их в виде специальных токенов в текстовом промпте. Эта техника не изменяет основную модель, а добавляет в словарь её эмбеддингов новое слово, которое связывается с определённым визуальным образом.
🧠 Механизм работы
Textual Inversion обучает векторное представление (эмбеддинг) для нового токена, используя набор изображений. Во время генерации этот токен интерпретируется моделью как набор числовых признаков, которые встраиваются в латентное пространство. Таким образом, модель может воспроизводить новые объекты или стили, даже если они не были изначально в её тренировочном датасете. Обучение обычно занимает меньше ресурсов, чем дообучение модели (fine-tuning) или LoRA.
🔑 Особенности
- Добавляет новые визуальные концепции без изменения самой модели.
- Использует специальные токены для активации обученных эмбеддингов.
- Лёгкий и быстрый метод по сравнению с полноценным обучением LoRA или DreamBooth.
- Можно комбинировать несколько токенов для получения уникальных результатов.
📌 Примеры применения
- Добавление в модель конкретного персонажа или объекта, отсутствующего в базовом датасете.
- Создание художественного стиля, который можно активировать одним словом-токеном.
- Перенос уникальных визуальных характеристик (например, фирменного стиля иллюстратора).
⚖️ Преимущества и недостатки
Преимущества:
- Минимальные затраты памяти и ресурсов.
- Легко распространять и использовать (один файл с эмбеддингами).
- Совместимость с различными интерфейсами вроде Automatic1111.
Недостатки:
- Ограниченная выразительность по сравнению с LoRA или DreamBooth.
- Требует качественного датасета (10–30 изображений для хорошего результата).
- Меньшая универсальность: иногда эмбеддинги плохо комбинируются с другими стилями.
🧠 Связанные понятия
- Embedding — векторное представление данных, применяемое для токенов.
- LoRA (Low-Rank Adaptation) — облегчённый метод дообучения моделей.
- DreamBooth — метод обучения для добавления новых концепций в модель.
- Latent Space — пространство признаков, в котором формируются изображения.
- Fine-tuning — процесс дообучения модели на новых данных.
💡 Вывод
Textual Inversion предоставляет удобный способ расширить словарь генеративной модели, позволяя добавлять новые понятия и стили без изменения самой модели. Этот метод прост в использовании, требует минимальных ресурсов и особенно полезен для точечной кастомизации генерации, хотя по мощности он уступает более комплексным методам обучения.