Толковый словарь по нейросетям и искусственному интеллекту
Жадный поиск
Категория термина
Жадный поиск (Greedy Search) — это простой алгоритм декодирования, применяемый в задачах генерации последовательностей, таких как машинный перевод, генерация текста, распознавание речи и суммаризация. Его принцип работы заключается в том, что на каждом шаге выбирается токен с наибольшей вероятностью, предсказанной моделью, без учета альтернативных вариантов. Такой подход отличается высокой скоростью, но часто жертвует качеством результата, так как выбор локально оптимального варианта не всегда ведёт к глобально лучшему решению.
🧠 Основная идея:
- Модель предсказывает распределение вероятностей для следующего токена.
- Из этого распределения выбирается токен с максимальной вероятностью.
- Алгоритм продолжается до тех пор, пока не будет достигнут токен конца последовательности (end of sequence,
<EOS>) или максимальная длина.
Таким образом, Greedy Search строит единственную гипотезу и не возвращается к рассмотрению других возможных путей.
⚙️ Пример работы:
Допустим, модель переводит слово "I". Возможные продолжения:
- "am" (вероятность 0.6)
- "like" (0.3)
- "have" (0.1)
Greedy Search выберет "am". На следующем шаге, если модель выдаёт:
- "happy" (0.5)
- "tired" (0.4)
Алгоритм выберет "happy" и результат будет "I am happy". Другие варианты, такие как "I like pizza", будут проигнорированы, даже если их итоговая вероятность могла бы быть выше.
📌 Применение:
- Машинный перевод — быстрый перевод без учёта альтернатив.
- Распознавание речи — прямое преобразование аудио в текст.
- Генерация текста — простые сценарии, где важна скорость, а не креативность.
- Онлайн-сервисы — когда критичны низкие задержки (например, чат-боты в реальном времени).
⚖️ Преимущества и недостатки:
Преимущества:
- Очень быстрая работа.
- Простая реализация.
- Минимальные вычислительные ресурсы.
Недостатки:
- Может выдавать неполные или бессмысленные последовательности.
- Сильно ограничивает разнообразие текстов.
- Склонен к "локальным максимумам", игнорируя лучшие глобальные решения.
🧩 Связанные методы:
- Beam Search — сохраняет несколько лучших гипотез одновременно.
- Top-k Sampling — случайный выбор из k наиболее вероятных токенов.
- Top-p (Nucleus) Sampling — случайный выбор из минимального множества токенов с вероятностью ≥ p.
- Temperature Sampling — управление "креативностью" модели за счёт изменения распределения вероятностей.
💡 Вывод:
Greedy Search — это базовый и быстрый метод генерации последовательностей, подходящий для задач, где приоритетом является скорость и простота. Однако он часто уступает по качеству более продвинутым алгоритмам, таким как Beam Search или вероятностные методы выборки, и потому обычно используется как базовый ориентир для сравнения.