Толковый словарь по нейросетям и искусственному интеллекту
Контекстный вектор
Context Vector
Категория термина
Контекстный вектор (Context Vector) — это компактное представление всей или части последовательности входных данных, которое используется нейросетью для информирования следующего шага предсказания. Контекстный вектор является результатом агрегирования скрытых состояний (hidden states) и часто применяется в моделях с вниманием (Attention) и в seq2seq-архитектурах для кодирования контекста последовательности.
🧠 Механизм работы:
- Последовательность входных данных обрабатывается кодером (encoder), формируя скрытые состояния для каждого шага.
- Контекстный вектор создаётся как агрегированное представление скрытых состояний: с помощью суммирования, усреднения или механизма внимания (attention).
- Контекстный вектор передаётся декодеру (decoder) или следующему слою модели, предоставляя информацию о всей последовательности или её релевантной части.
- В моделях с вниманием контекстный вектор может динамически изменяться для каждого шага декодирования, позволяя фокусироваться на разных частях входа.
🔑 Основные особенности:
- Агрегация информации
- Собирает ключевые сведения о последовательности в компактный вектор.
- Динамическое внимание
- В механизмах attention контекстный вектор формируется индивидуально для каждого шага декодера.
- Обеспечение контекста
- Позволяет модели учитывать предыдущие элементы последовательности при генерации следующего.
📌 Примеры применения:
- Машинный перевод
- Контекстный вектор кодирует смысл исходного предложения для генерации перевода на другом языке.
- Текстовая генерация
- Используется в seq2seq и трансформерах для сохранения информации о предыдущих токенах.
- Распознавание речи
- Контекстный вектор агрегирует скрытые состояния аудиосигнала для точного предсказания текста.
- Image Captioning
- Вектор контекста кодирует визуальную информацию изображения для генерации описания.
⚖️ Преимущества и недостатки:
Преимущества:- Позволяет компактно представлять информацию о последовательности.
- Облегчает работу декодера, предоставляя релевантный контекст.
- В механизмах attention динамический контекст повышает точность и гибкость модели.
- Фиксированный контекстный вектор (в старых seq2seq без attention) может быть узким для длинных последовательностей.
- Не всегда легко интерпретировать, какие части входа учитываются.
- Для больших последовательностей может потребоваться большое количество вычислений при динамическом внимании.
🧠 Связанные понятия:
- Hidden State — исходные внутренние представления, из которых формируется контекстный вектор.
- Attention Mechanism — метод динамического формирования контекстного вектора для каждого шага декодирования.
- Seq2Seq — архитектура «кодер-декодер», активно использующая контекстные векторы.
- Transformer — современные модели, где контекстные векторы формируются через self-attention и multi-head attention.