Толковый словарь по нейросетям и искусственному интеллекту
Функция вознаграждения
Reward Function
Категория термина
Функция вознаграждения (Reward Function) — это функция в обучении с подкреплением (Reinforcement Learning), которая определяет, какое вознаграждение агент получает за выполнение конкретного действия в данном состоянии. Она служит основным источником обратной связи для агента и формирует цель обучения: максимизацию суммарного вознаграждения за время взаимодействия со средой.
🧠 Механизм работы:
- Агент выбирает действие aa в состоянии ss согласно своей политике.
- Среда вычисляет значение вознаграждения R(s,a)R(s, a), отражающее, насколько полезным было это действие для достижения цели.
- Агент использует это вознаграждение для обновления функции ценности V(s)V(s) или функции ценности действия Q(s,a)Q(s, a).
- На основе обновленных значений агент корректирует свою политику, выбирая действия, которые увеличивают ожидаемое суммарное вознаграждение.
- Процесс повторяется многократно, что позволяет агенту постепенно обучаться оптимальной стратегии.
🔑 Основные особенности:
- Положительные и отрицательные награды — reward может быть как положительным, так и отрицательным, чтобы стимулировать или штрафовать агента.
- Непосредственная и отложенная награда — функция может выдавать вознаграждение сразу или через несколько шагов после действия.
- Определяет цель обучения — корректно сформулированная функция вознаграждения напрямую влияет на эффективность обучения агента.
📌 Примеры применения:
- Игровые агенты — награды за победу, очки за достижения, штрафы за ошибки.
- Робототехника — вознаграждение за успешное выполнение манипуляций или движение к цели, штраф за столкновения.
- Финансовые стратегии — прибыль или убыток от совершённых сделок.
- Рекомендательные системы — вознаграждение за взаимодействие пользователей с контентом (клики, покупки, время просмотра).
⚖️ Преимущества и недостатки:
Преимущества:
- Обеспечивает агенту целевое обучение через обратную связь.
- Позволяет формализовать задачу оптимизации поведения агента.
- Гибко настраивается под различные типы задач и сред.
Недостатки:
- Некорректно определённая функция вознаграждения может привести к нежелательному поведению агента.
- Отложенные награды усложняют обучение и требуют методов учета будущих вознаграждений (дисконтирование).
- Слишком сложные или противоречивые функции вознаграждения могут замедлить процесс обучения.
🧠 Связанные понятия:
- Reinforcement Signal — конкретная реализация сигнала подкрепления, формируемого функцией вознаграждения.
- Value Function — используется для оценки суммарного вознаграждения с учетом функции вознаграждения.
- Policy — стратегия агента, оптимизируемая для максимизации вознаграждения.
- Discount Factor (γ) — коэффициент дисконтирования будущих наград при обучении.