Толковый словарь по нейросетям и искусственному интеллекту
Формирование награды
Категория термина
Reward Shaping — это техника в обучении с подкреплением (Reinforcement Learning, RL), которая направлена на модификацию функции награды для ускорения обучения агента. В классическом RL агент получает награду только за конечный результат (например, победу в игре или выполнение задачи). В реальных и сложных задачах это может приводить к очень медленному обучению, поскольку полезная обратная связь приходит редко. Reward Shaping добавляет дополнительные промежуточные награды, помогая агенту понять, какие действия более полезны.
🔑 Основные идеи:
- Дополнительные награды за промежуточные цели: Агент получает баллы не только за окончательный успех, но и за приближение к цели.
- Снижение разреженности сигналов: В сложных средах без Reward Shaping агент может получать слишком мало полезной обратной связи.
- Сохранение корректности политики: Важно, чтобы изменения награды не изменяли оптимальную стратегию, а только ускоряли обучение.
🧩 Примеры применения:
- Навигация робота:
Робот должен дойти до точки назначения. Вместо награды только за финиш можно давать дополнительные очки за сокращение расстояния к цели. - Игры:
В игре с лабиринтом агент получает небольшую награду за прохождение каждого коридора, а не только за выход из лабиринта. - Манипуляция объектами:
Робот получает награду не только за успешный захват предмета, но и за приближение к нему, правильное позиционирование руки и удержание объекта.
📦 Методы Reward Shaping:
- Potential-based Reward Shaping: Определяет функцию потенциала φ(state), и награда изменяется как R'(s,a,s') = R(s,a,s') + γφ(s') - φ(s), что гарантирует сохранение оптимальной политики.
- Heuristic Shaping: Использование эвристик или доменной экспертизы для определения промежуточных наград.
- Curriculum Learning + Shaping: Постепенное увеличение сложности задач с соответствующей корректировкой награды.
⚖️ Преимущества:
- Быстрое обучение агента.
- Улучшение стабильности обучения.
- Возможность справляться с разреженными и сложными сигналами награды.
⚠️ Ограничения:
- Некорректная формулировка награды может привести к нежелательным стратегиям (агент может «обманывать» систему).
- Требует экспертных знаний о задаче или среде.
🔄 Связанные понятия:
- Reinforcement Learning (Обучение с подкреплением)
- Reward Function (Функция награды)
- Potential-based Shaping
- Curriculum Learning
- Sparse Reward (Разреженная награда)
📌 Вывод:
Reward Shaping — это мощный инструмент в обучении с подкреплением, позволяющий ускорить и стабилизировать процесс обучения агента в сложных средах. При правильной настройке он помогает агенту быстрее понять, какие действия полезны для достижения цели, минимизируя время и вычислительные ресурсы.