Толковый словарь по нейросетям и искусственному интеллекту
Актор-Критик
Категория термина
Актор-Критик (Actor-Critic) — это класс алгоритмов обучения с подкреплением, который объединяет сильные стороны методов градиентного обучения политики (Policy Gradient Methods) и методов, основанных на функциях ценности (Value-Based Methods). Подход разделяет модель на две части: Actor (актор), который отвечает за выбор действий, и Critic (критик), который оценивает качество этих действий через функцию ценности. Такое разделение позволяет снизить дисперсию градиентных оценок и ускорить обучение.
🧠 Механизм работы:
- Actor реализует политику πθ(a∣s)\pi_\theta(a|s) и генерирует действия на основе состояния.
- Critic оценивает действие, вычисляя функцию ценности Vπ(s)V^\pi(s) или функцию преимущества A(s,a)A(s,a).
- Критик выдает сигнал об ошибке (TD-ошибку), который используется для обновления параметров актора.
- Параметры критика обновляются так, чтобы предсказания ценности были более точными.
- Обе части обучаются параллельно: актор улучшает стратегию, а критик повышает качество оценки.
🔑 Основные особенности:
- Сочетает преимущества policy-based и value-based методов.
- Использует TD-обновления для оценки ценности (снижает дисперсию по сравнению с REINFORCE).
- Гибкость: подходит как для дискретных, так и для непрерывных пространств действий.
- Легко расширяется в более сложные архитектуры, например A2C, A3C, PPO.
📌 Примеры применения:
- Управление роботами — движения манипуляторов, балансировка роботов.
- Игры — обучение агентов в Atari, шахматах, го.
- Автономное вождение — принятие решений в реальном времени.
- Оптимизация сетевых протоколов — динамическое управление пропускной способностью.
⚖️ Преимущества и недостатки:
Преимущества:
- Снижает дисперсию по сравнению с чистыми методами Policy Gradient.
- Более эффективное и стабильное обучение.
- Подходит для сложных и непрерывных задач.
Недостатки:
- Увеличивается сложность из-за необходимости обучения двух моделей (Actor и Critic).
- Возможна переобученность критика, что ведет к смещенным обновлениям актора.
- Зависимость от качества оценки функции ценности.
🧠 Связанные понятия:
- Policy Gradient Methods — базовый метод, от которого Actor-Critic унаследовал обновление политики.
- Value Function — ядро критика, оценивающее состояния и действия.
- Advantage Function — часто используется вместо функции ценности для более устойчивого обучения.
- A2C, A3C — усовершенствованные версии Actor-Critic (асинхронные варианты).
- PPO — улучшенный метод, также относящийся к семейству Actor-Critic.
💡 Вывод:
Actor-Critic — это фундаментальная архитектура обучения с подкреплением, которая объединяет обучение стратегии и оценку её качества. Она стала основой для многих современных алгоритмов RL и используется в широком спектре практических приложений — от игр до робототехники.