Толковый словарь по нейросетям и искусственному интеллекту
Метрика BLEU
Категория термина
BLEU — это автоматическая метрика качества машинного перевода, предназначенная для оценки степени схожести между машинно сгенерированным текстом и одним или несколькими эталонными (референсными) человеческими переводами. Разработана в 2002 году (Papineni et al.) в IBM и с тех пор широко используется в задачах машинного перевода и генерации текста.
BLEU измеряет n-граммное совпадение между машинным переводом и референсами, где n-грамма — это последовательность из n слов. Метрика оценивает точность, а не полноту, т.е. она не учитывает недостающие слова, а только долю совпадений.
Основные компоненты BLEU:
- N-граммная точность: сравнение совпадающих 1-грамм, 2-грамм и т.д. вплоть до 4-грамм между предсказанием и референсами.
- Brevity penalty (штраф за краткость): если предсказание слишком короткое по сравнению с эталонным, вводится штраф.
Окончательный счёт:
BLEU=BP⋅exp(∑n=1Nwnlogpn)\text{BLEU} = \text{BP} \cdot \exp\left( \sum_{n=1}^{N} w_n \log p_n \right)где pnp_n — точность n-грамм, wnw_n — веса (обычно одинаковые), BP\text{BP} — brevity penalty.
Значения BLEU:
- BLEU-0.0: нет совпадений.
- BLEU-1.0 (или 100): полное совпадение.
- В реальности: значения выше 0.3–0.4 считаются хорошими для многих задач, 0.6–0.7 — отличными.
Пример:
Референс: "The cat is on the mat."
Генерация: "The cat is on mat."
BLEU подсчитает совпадающие n-граммы: например, 1-граммы "The", "cat", "is", "on", "mat" — почти все есть, но отсутствует "the" перед "mat", что снизит счёт.
Области применения:
- Машинный перевод (MT)
- Суммаризация текста
- Генерация описаний изображений
- Диалоговые системы
Ограничения:
- Не учитывает семантику (например, "cat" и "feline" считаются разными).
- Чувствительна к формулировке: небольшая перестановка слов может сильно снизить счёт.
- Плохо работает при одном эталонном переводе, лучше использовать несколько.
Альтернативы BLEU:
- METEOR — учитывает синонимы и стемминг.
- ROUGE — больше применяется в суммаризации.
- BERTScore, COMET, BLEURT — современные метрики с использованием трансформеров и семантического сравнения.
Значение:
BLEU долгое время был «золотым стандартом» оценки в машинном переводе и сыграл огромную роль в развитии нейросетевых переводчиков. Несмотря на появление более продвинутых метрик, BLEU до сих пор используется благодаря своей простоте, скорости и воспроизводимости.