Толковый словарь по нейросетям и искусственному интеллекту

Метрика BLEU

BLEU Score

Категория термина


BLEU — это автоматическая метрика качества машинного перевода, предназначенная для оценки степени схожести между машинно сгенерированным текстом и одним или несколькими эталонными (референсными) человеческими переводами. Разработана в 2002 году (Papineni et al.) в IBM и с тех пор широко используется в задачах машинного перевода и генерации текста.

BLEU измеряет n-граммное совпадение между машинным переводом и референсами, где n-грамма — это последовательность из n слов. Метрика оценивает точность, а не полноту, т.е. она не учитывает недостающие слова, а только долю совпадений.

Основные компоненты BLEU:

  1. N-граммная точность: сравнение совпадающих 1-грамм, 2-грамм и т.д. вплоть до 4-грамм между предсказанием и референсами.
  2. Brevity penalty (штраф за краткость): если предсказание слишком короткое по сравнению с эталонным, вводится штраф.
  3. Окончательный счёт:

    BLEU=BP⋅exp⁡(∑n=1Nwnlog⁡pn)\text{BLEU} = \text{BP} \cdot \exp\left( \sum_{n=1}^{N} w_n \log p_n \right)

    где pnp_nточность n-грамм, wnw_n — веса (обычно одинаковые), BP\text{BP} — brevity penalty.

Значения BLEU:

  • BLEU-0.0: нет совпадений.
  • BLEU-1.0 (или 100): полное совпадение.
  • В реальности: значения выше 0.3–0.4 считаются хорошими для многих задач, 0.6–0.7 — отличными.

Пример:

Референс: "The cat is on the mat."
Генерация: "The cat is on mat."
BLEU подсчитает совпадающие n-граммы: например, 1-граммы "The", "cat", "is", "on", "mat" — почти все есть, но отсутствует "the" перед "mat", что снизит счёт.

Области применения:

Ограничения:

  • Не учитывает семантику (например, "cat" и "feline" считаются разными).
  • Чувствительна к формулировке: небольшая перестановка слов может сильно снизить счёт.
  • Плохо работает при одном эталонном переводе, лучше использовать несколько.

Альтернативы BLEU:

  • METEOR — учитывает синонимы и стемминг.
  • ROUGE — больше применяется в суммаризации.
  • BERTScore, COMET, BLEURT — современные метрики с использованием трансформеров и семантического сравнения.

Значение:

BLEU долгое время был «золотым стандартом» оценки в машинном переводе и сыграл огромную роль в развитии нейросетевых переводчиков. Несмотря на появление более продвинутых метрик, BLEU до сих пор используется благодаря своей простоте, скорости и воспроизводимости.

🤔 Остались вопросы? Спросите ИИ

Используйте в запросе не более 500 символов.

📌 Последние запросы

  • Почему нет синусной меры сходства? 4 дня назад
  • Почему нет минусной перв сходства? 4 дня назад
  • Здравствуйте можно создать видео танцуешь из фото 7 дней назад

📥 Скачать список терминов (646)

Форматы: TXT (список) | CSV (Excel) | JSON (код) | XML (данные) | MD (Markdown)