Толковый словарь по нейросетям и искусственному интеллекту

Формирование награды

Reward Shaping

Категория термина


Reward Shaping — это техника в обучении с подкреплением (Reinforcement Learning, RL), которая направлена на модификацию функции награды для ускорения обучения агента. В классическом RL агент получает награду только за конечный результат (например, победу в игре или выполнение задачи). В реальных и сложных задачах это может приводить к очень медленному обучению, поскольку полезная обратная связь приходит редко. Reward Shaping добавляет дополнительные промежуточные награды, помогая агенту понять, какие действия более полезны.


🔑 Основные идеи:

  • Дополнительные награды за промежуточные цели: Агент получает баллы не только за окончательный успех, но и за приближение к цели.
  • Снижение разреженности сигналов: В сложных средах без Reward Shaping агент может получать слишком мало полезной обратной связи.
  • Сохранение корректности политики: Важно, чтобы изменения награды не изменяли оптимальную стратегию, а только ускоряли обучение.

🧩 Примеры применения:

  1. Навигация робота:
    Робот должен дойти до точки назначения. Вместо награды только за финиш можно давать дополнительные очки за сокращение расстояния к цели.
  2. Игры:
    В игре с лабиринтом агент получает небольшую награду за прохождение каждого коридора, а не только за выход из лабиринта.
  3. Манипуляция объектами:
    Робот получает награду не только за успешный захват предмета, но и за приближение к нему, правильное позиционирование руки и удержание объекта.

📦 Методы Reward Shaping:

  • Potential-based Reward Shaping: Определяет функцию потенциала φ(state), и награда изменяется как R'(s,a,s') = R(s,a,s') + γφ(s') - φ(s), что гарантирует сохранение оптимальной политики.
  • Heuristic Shaping: Использование эвристик или доменной экспертизы для определения промежуточных наград.
  • Curriculum Learning + Shaping: Постепенное увеличение сложности задач с соответствующей корректировкой награды.

⚖️ Преимущества:

  • Быстрое обучение агента.
  • Улучшение стабильности обучения.
  • Возможность справляться с разреженными и сложными сигналами награды.

⚠️ Ограничения:

  • Некорректная формулировка награды может привести к нежелательным стратегиям (агент может «обманывать» систему).
  • Требует экспертных знаний о задаче или среде.

🔄 Связанные понятия:


📌 Вывод:

Reward Shaping — это мощный инструмент в обучении с подкреплением, позволяющий ускорить и стабилизировать процесс обучения агента в сложных средах. При правильной настройке он помогает агенту быстрее понять, какие действия полезны для достижения цели, минимизируя время и вычислительные ресурсы.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Нарисуй мне игральную карту как из игры Hearthstone. На ней должен быть изображён молодой парень в о… 1 неделя назад
  • Как выбрать размер сглаживания? 2 недели назад
  • Сможешь поределить значение подписи 2 недели назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)