Толковый словарь по нейросетям и искусственному интеллекту
Долгая краткосрочная память
Long Short-Term Memory
LSTM
Категория термина
Долгая краткосрочная память (Long Short-Term Memory, LSTM) — это вид рекуррентной нейронной сети (RNN), специально разработанный для решения проблемы исчезающего и взрывающегося градиента при обучении длинных последовательностей. LSTM способен эффективно запоминать информацию на долгие промежутки времени и использовать её для предсказаний, что делает его особенно полезным для работы с последовательными данными, такими как текст, аудио и временные ряды.
🧠 Механизм работы:
- Ячейка LSTM содержит состояние памяти (cell state), которое проходит через всю последовательность, сохраняя долгосрочную информацию.
- Используются три ключевых гейта:
- Forget Gate — решает, какую информацию удалить из состояния памяти.
- Input Gate — решает, какую новую информацию добавить в состояние памяти.
- Output Gate — контролирует, какую часть состояния памяти передать на выход и в следующую ячейку.
- Каждый гейт использует сигмоидальную активацию для определения степени влияния информации.
- Обновлённое состояние памяти и выход ячейки используются на следующем временном шаге и для предсказаний.
🔑 Основные особенности:
- Долгосрочная память
- Сохраняет важную информацию на длительные интервалы, предотвращая «забывание» при длинных последовательностях.
- Гейтовая архитектура
- Использование forget, input и output гейтов обеспечивает контроль над потоками информации.
- Устойчивость к исчезающему градиенту
- Позволяет обучать сети на длинных последовательностях, чего сложно добиться с обычными RNN.
📌 Примеры применения:
- Обработка текста и NLP
- Машинный перевод, анализ тональности, генерация текста.
- Распознавание речи
- Синтез и распознавание аудио сигналов, транскрипция речи.
- Временные ряды и прогнозирование
- Прогнозирование цен, датчиков и финансовых показателей.
- Видео и последовательные данные
- Обнаружение действий, генерация кадров, анимация.
⚖️ Преимущества и недостатки:
Преимущества:- Эффективно работает с длинными последовательностями.
- Сохраняет важную информацию и фильтрует несущественные данные.
- Устойчив к проблемам исчезающих градиентов.
- Более сложная архитектура по сравнению с обычными RNN, что увеличивает вычислительные затраты.
- Обучение может быть медленным на больших последовательностях.
- Сложнее интерпретировать внутренние состояния и гейты.
🧠 Связанные понятия:
- RNN (Recurrent Neural Network) — базовая рекуррентная архитектура, из которой развилась LSTM.
- GRU (Gated Recurrent Unit) — более простая альтернатива LSTM с меньшим числом гейтов.
- Vanishing Gradient Problem — проблема, которую LSTM решает благодаря гейтам и состоянию памяти.
- Sequence Modeling — задачи, для которых LSTM особенно эффективен, например NLP и временные ряды.