Толковый словарь по нейросетям и искусственному интеллекту
Инициализация весов
Категория термина
Инициализация весов (Weight Initialization) — это процесс установки начальных значений параметров (весов) нейронной сети перед началом обучения. Поскольку обучение нейросети с нуля происходит методом градиентного спуска, от правильной начальной инициализации зависит скорость сходимости, стабильность обучения и качество итоговой модели. Плохая инициализация может привести к затуханию или взрывному росту градиентов, замедлению обучения или застреванию в локальных минимумах.
🔑 Основные подходы к инициализации весов:
| Метод | Описание |
|---|---|
| Zero Initialization | Все веса устанавливаются в ноль (не рекомендуется для скрытых слоёв, так как нейроны учатся одинаково). |
| Random Initialization | Веса выбираются случайным образом из нормального или равномерного распределения. |
| Xavier / Glorot Initialization | Используется для линейных и сигмоидных слоёв, масштабирует веса с учетом числа входов и выходов слоя. |
| He Initialization | Оптимизирована для слоёв с ReLU и её модификациями, предотвращает затухание градиентов. |
| Orthogonal Initialization | Весовые матрицы инициализируются ортогональными матрицами для сохранения стабильности сигнала. |
| Uniform / Normal Distribution | Простейшие распределения с заданной дисперсией или диапазоном. |
🧩 Примеры применения:
- Трансформеры: линейные слои Q, K, V и feed-forward слои инициализируются Xavier или He для стабильной сходимости.
- Сверточные сети (CNN): He Initialization помогает ускорить обучение ReLU-активированных слоёв.
- Рекуррентные сети (RNN, LSTM): ортогональная инициализация для скрытых весов улучшает сохранение информации через длительные последовательности.
- Автоэнкодеры и VAE: правильная инициализация предотвращает взрыв или затухание реконструкции на первых шагах обучения.
📦 Пример на PyTorch:
🔄 Связанные понятия:
- Gradient Descent (Градиентный спуск) — обучение весов зависит от их начальной позиции.
- Activation Function (Функция активации) — влияет на выбор метода инициализации.
- Vanishing / Exploding Gradients (Затухание / Взрыв градиентов) — проблема, которую решает правильная инициализация.
- Batch Normalization / Layer Normalization — помогает стабилизировать обучение, но не заменяет корректную инициализацию.
📌 Вывод:
Инициализация весов — критически важный шаг в проектировании нейронных сетей. Правильный выбор метода помогает ускорить обучение, повысить стабильность градиентов и улучшить конечную точность модели, особенно в глубоких архитектурах и сложных задачах машинного обучения.