Толковый словарь по нейросетям и искусственному интеллекту
Диффузионная модель
Категория термина
Диффузионная модель — это класс генеративных моделей, используемых для создания реалистичных данных, таких как изображения, аудио или текст. Основная идея заключается в том, что модель обучается обратному процессу диффузии: постепенному преобразованию случайного шума в структурированные данные. Обучение включает два этапа: прямой (forward) процесс, в котором данные постепенно «зашумляются», и обратный (reverse) процесс, где нейросеть учится восстанавливать исходные данные из шума.
Диффузионные модели стали популярными благодаря высокой стабильности обучения и способности создавать изображения высокого качества и разрешения, превосходящие многие GAN (Generative Adversarial Networks) в реалистичности и разнообразии.
Математическая основа:
Прямой процесс (Forward Diffusion):
xt=αtxt−1+1−αtϵ,ϵ∼N(0,1)x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0,1)Данные постепенно превращаются в гауссов шум через несколько шагов.
Обратный процесс (Reverse Diffusion):
Модель учится предсказывать шум или исходное состояние x0x_0 на каждом шаге, постепенно восстанавливая данные.
Примеры и реализации:
- DDPM (Denoising Diffusion Probabilistic Models) — классическая диффузионная модель.
- Stable Diffusion — популярная модель генерации изображений на основе текста.
- Imagen (Google) — генерация изображений с высоким качеством.
- Denoising Diffusion Implicit Models (DDIM) — ускоренный вариант диффузионной генерации.
Применение:
- Генерация изображений: создание реалистичных лиц, пейзажей, арт-контента.
- Генерация видео и анимаций: плавная последовательная генерация кадров.
- Обработка аудио: генерация музыкальных или голосовых сигналов.
- Медицинские данные: синтез медицинских изображений для обучения и аугментации.
- Мультимодальные модели: совместная генерация изображений и текста.
Преимущества:
- Высокое качество и детализация генерации.
- Стабильность обучения по сравнению с GAN.
- Возможность контроля генерации через условия (conditional diffusion).
- Подходит для fine-tuning и inpainting (замена частей изображения).
Пример использования:
В Stable Diffusion пользователь вводит текстовый запрос «A futuristic city at sunset», и диффузионная модель постепенно преобразует случайный шум в изображение города, соответствующее описанию, проходя через сотни или тысячи шагов обратной диффузии.
Значение:
Диффузионные модели сегодня являются основой современной генеративной графики и мультимодальных ИИ-систем, позволяя создавать фотореалистичные изображения и контент, управляемый текстом, с высокой гибкостью и разнообразием.