Толковый словарь по нейросетям и искусственному интеллекту
Обучение с подкреплением
Категория термина
Обучение с подкреплением (Reinforcement Learning) — это направление машинного обучения, в котором агент учится принимать решения, взаимодействуя с окружающей средой (environment). В отличие от обучения с учителем, здесь нет готовых правильных ответов: агент исследует среду, пробует действия и получает за них награду (reward). Цель агента — максимизировать суммарную награду со временем.
📐 Основные компоненты RL:
| Компонент | Описание |
|---|---|
| Агент (Agent) | Обучаемая система, принимающая решения. |
| Среда (Environment) | Всё, с чем взаимодействует агент (игра, робот, симулятор и т.д.). |
| Состояние (State) | Описание текущего положения в среде. |
| Действие (Action) | Шаг, который может сделать агент. |
| Награда (Reward) | Числовой сигнал, показывающий, насколько удачным было действие. |
| Политика (Policy) | Стратегия выбора действия в зависимости от состояния. |
| Функция ценности (Value Function) | Прогноз суммарной будущей награды. |
| Функция полезности действия (Q-function) | Прогноз награды при конкретном действии в текущем состоянии. |
🧪 Простой пример:
Представим, что агент играет в игру "поймай яблоко". Он может двигаться влево или вправо и должен поймать падающее яблоко. Если он поймал — получает +1, если промахнулся — 0. Постепенно он учится двигаться в нужную сторону, чтобы ловить яблоки чаще.
📊 Алгоритмы RL:
- Q-learning — табличный метод оценки качества действий.
- SARSA — похож на Q-learning, но учитывает поведение агента.
- Deep Q-Networks (DQN) — использует нейросети вместо таблицы.
- Policy Gradient — оптимизация стратегии напрямую.
- Actor-Critic — комбинация стратегии (actor) и ценности (critic).
- Proximal Policy Optimization (PPO) — стабильный и популярный метод, часто используется в современных ИИ.
- A3C / A2C, DDPG, SAC, TD3 — более продвинутые и эффективные подходы.
🧠 Где используется Reinforcement Learning:
- Робототехника — управление движением, манипуляция объектами.
- Игры — AlphaGo, AlphaZero, Dota 2, StarCraft II.
- Управление трафиком — адаптивные светофоры.
- Финансы — оптимизация торговых стратегий.
- Обучение агентов в симуляторах — автомобили, дроны и т.д.
- Рекомендательные системы — адаптивное поведение на основе реакции пользователя.
📦 Пример в коде (Python + Gym + Q-learning):
🧩 Связанные понятия:
- Exploration vs. Exploitation — исследование новых действий vs. использование известных.
- Markov Decision Process (MDP) — формальная модель задачи.
- Reward Shaping — изменение структуры наград для ускорения обучения.
- Multi-agent RL — обучение нескольких агентов, которые взаимодействуют.
- Imitation Learning — обучение по демонстрациям эксперта.
📌 Вывод:
Reinforcement Learning — мощный инструмент для создания адаптивных, автономных систем. Он особенно полезен там, где правильное поведение не задано явно, а должно быть выработано в процессе взаимодействия с окружающей средой. Именно благодаря RL мы видим успехи ИИ в играх, робототехнике и автономных системах.