Толковый словарь по нейросетям и искусственному интеллекту
Гиперболический тангенс
Категория термина
Гиперболический тангенс (Tanh) — это активационная функция, которая преобразует любое действительное число в диапазон от -1 до 1. Она является симметричной относительно нуля, что помогает центровать данные и ускоряет сходимость обучения по сравнению с сигмоидой.
🧠 Механизм работы:
Функция задаётся формулой:
tanh(x)=ex−e−xex+e−xtanh(x) = frac{e^x - e^{-x}}{e^x + e^{-x}}- При больших положительных значениях xx функция стремится к 1.
- При больших отрицательных значениях xx функция стремится к -1.
- При x=0x = 0 значение равно 0.
Производная функции:
ddxtanh(x)=1−tanh2(x)frac{d}{dx}tanh(x) = 1 - tanh^2(x)что позволяет использовать её для обратного распространения ошибки.
🔑 Основные особенности:
- Диапазон выхода от -1 до 1, центрирован относительно нуля.
- Дифференцируемая и гладкая функция.
- Уменьшает смещение в градиентах по сравнению с сигмоидой.
- Может страдать от затухания градиента при больших |x|.
📌 Примеры применения:
- Recurrent Neural Networks (RNN, LSTM, GRU) — широко используется как активация скрытых состояний.
- Нейронные сети с небольшим количеством слоёв — когда важно центрирование данных.
- Обработка сигналов — нормализация и сглаживание выходов.
⚖️ Преимущества и недостатки:
Преимущества:
- Центрирована относительно нуля, что ускоряет обучение.
- Дифференцируема и гладкая.
- Хорошо работает для скрытых слоёв RNN.
Недостатки:
- Проблема затухающего градиента при больших |x|, что замедляет обучение глубоких сетей.
- Менее эффективна в глубоких feedforward-сетях по сравнению с ReLU.
- Вычислительно дороже, чем ReLU.
🧠 Связанные понятия:
- Sigmoid — похожая S-образная функция, но диапазон от 0 до 1.
- ReLU / Leaky ReLU / GELU — современные функции активации для глубоких сетей.
- RNN / LSTM / GRU — архитектуры, где tanh используется для скрытых состояний.
💡 Вывод:
Гиперболический тангенс (Tanh) — это классическая активационная функция, обеспечивающая центрированные выходы и плавную нелинейность. Она до сих пор широко применяется в рекуррентных нейросетях и задачах, где важно поддерживать симметрию и стабильность градиентов, хотя в глубоких feedforward-сетях постепенно вытесняется ReLU и её модификациями.