BLEU: неправильно понятая метрика из другой эпохи

Переиздано Платоном

Читают: 0

Но до сих пор используется в исследованиях ИИ.

GPT-3, Whisper, Пальма, НЛЛБ, ФЛАНи многие другие модели были оценены по метрике BLEU, чтобы заявить об их превосходстве в некоторых задачах.

Но что такое BLEU? Как это работает?

В этой статье мы вернемся на 20 лет назад, чтобы раскрыть основные причины, которые привели к появлению BLEU и сделали его очень успешным показателем. Мы рассмотрим, как работает BLEU, на некоторых примерах. Я также выделю основные ограничения метрики и дам рекомендации по ее использованию.

Эта статья задумана как введение в BLEU, но она также может стать отличным напоминанием для опытных практиков НЛП/ИИ, которые используют BLEU по привычке, а не по необходимости.

BLEU был впервые описан в исследовательском отчете IBM, написанном в соавторстве с Кишором Папинени, Салимом Рукосом, Тоддом Уордом и Вэй-Цзин Чжу в 2001 году. Они опубликовали научная статья, описывающая это год спустя на ACL 2002, который гораздо чаще цитируется и его легко найти.

Первоначально BLEU был предложен в качестве автоматического показателя для оценки машинного перевода (MT).

В 2001 году системы машинного перевода по-прежнему оценивались в основном вручную или с использованием более старых автоматических показателей, таких как WER (частота ошибок в словах). WER — это метрика, основанная на расстоянии Левенштейна, которая до сих пор используется для оценки систем распознавания речи. Для оценки машинного перевода WER можно рассматривать как предка BLEU. Авторы BLEU выражают это следующим образом:

Мы формируем нашу метрику близости на основе очень успешного показателя частоты ошибок в словах, используемого сообществом по распознаванию речи.

Как и WER, BLEU — это показатель, измеряющий насколько текст близок к справочным текстам, созданным людьми, например, справочные переводы.

Поскольку перевод представляет собой задачу с несколькими правильными решениями, авторы BLEU разработали свою метрику таким образом, чтобы она могла обрабатывать несколько эталонных переводов. В то время это не было чем-то новым, поскольку WER уже трансформировался в «mWER» для обработки множественных ссылок. Насколько мне известно, впервые это было предложено Альшави и др. (1998) из лаборатории AT&T.

Важно отметить, что во всей статье, представляющей BLEU, авторы всегда предполагают использование нескольких справочных переводов для своей метрики. Они кратко обсуждают использование единого справочного перевода, который будет правильным только при некоторых обстоятельствах:

мы можем использовать большой тестовый корпус с одним эталонным переводом при условии, что не все переводы сделаны одним и тем же переводчиком.

Напротив, в настоящее время в большинстве исследовательских работ используется BLEU с единственная ссылка, часто из неизвестное происхождение, А для различные задачи, т.е. не только перевод.

С 2001 года BLEU является, мягко говоря, очень успешным показателем. Отчасти это произошло из-за его дешевая вычислительная стоимость и воспроизводимость оценок BLEU, в отличие от оценки человеком, результаты которой могут сильно различаться в зависимости от оценщиков и системы оценки.

БЛЕУ сейчас используется почти в 100% исследовательских работ по машинному переводу и в значительной степени распространился на другие задачи генерации естественного языка.

Точнее, BLEU оценивает, насколько хорошо обработаны n-граммы перевода. сопоставление n-грамм из набора справочных переводов, в то время как штрафовать машинный перевод, если он короче или длиннее чем справочные переводы.

Некоторые определения:

An н-грамм представляет собой последовательность токенов. Давайте также определим здесь, что знак представляет собой последовательность символов, произвольно разделенную пробелами. Например, предложение «токен — это не слово». часто будет обозначаться как «токен — это не слово». Подробнее о чрезвычайно важной роли токенизации мы поговорим позже в этой статье.

Чтобы увидеть BLEU в действии, я позаимствовал из статьи BLEU пример предложения на китайском языке (не предоставленного авторами), переведенного на английский. У нас есть следующие 2 перевода, созданные машинным переводом:

И следующие 3 справочных перевода, предоставленных людьми:

Вопрос, на который мы хотим ответить с помощью BLEU:

Какой перевод наиболее близок к приведенным справочным переводам?

Я выделил все n-граммы, которые включены в справочные переводы в обоих возможных переводах.

Кандидат 1 охватывает гораздо больше n-грамм из эталонных переводов, и поскольку его длина (количество токенов) также в разумных пределах соответствует длине эталонных переводов, он получит более высокий балл BLEU, чем Кандидат 2. Здесь BLEU верен, поскольку Кандидат 1 действительно лучше, чем Кандидат 2.

На этом примере мы можем увидеть некоторые очевидные ограничения BLEU. Смысл оцениваемого перевода не учитывается. BLEU искал только точные совпадения с токенами эталонных переводов.

Например, "обеспечивать» в Кандидате 2 в справочных переводах нет, но «обеспечивает" является. С "обеспечивать» не совсем то же самое, что «обеспечивает», BLEU не вознаграждает его, несмотря на то, что оно имеет близкое значение.

Все может быть еще хуже, если мы внимательно посмотрим на знаки препинания. Например, кандидат 2 заканчивается на «.», но этот период привязан к «непосредственный.», чтобы сформировать один токен. «непосредственный.” не является символом справочных переводов. Кандидат 2 не получает вознаграждения за правильное определение этого периода.

Вот почему BLEU обычно вычисляется для переводов, которые разделены на токены, содержащие знаки препинания. Подробнее мы обсудим это в следующем разделе.

Для простоты я не буду обсуждать уравнения, лежащие в основе BLEU. Если вам интересно вычислить BLEU самостоятельно, я приглашаю вас прочитать статью BLEU, где все уравнения хорошо мотивированы и объяснены.

Мы видели, что BLEU очень строг, поскольку токен должен быть идентичен токену в ссылочных переводах, чтобы считаться совпадением. Здесь токенизация играет очень важную, но часто неправильно понимают Роль.

Токенизация дает некоторые гибкости в БЛЕУ.

Например, давайте еще раз посмотрим на Кандидата 2:

Это делается для того, чтобы войска всегда слушали руководство по действиям, которое направляет партия.

Но на этот раз мы применим простые правила токенизации для отделения знаков препинания от слов. Мы получаем:

Это делается для того, чтобы войска всегда слушали руководство по действиям, которое направляет партия.

Обратите внимание, что ".» был отделен от «направлять» через пробел. Это единственная разница. Кандидат 2 теперь соответствует еще одному токену из эталонных переводов. Этот токен «.». Это не кажется важным, поскольку это всего лишь еще один токен, но он встречается очень часто. Эта токенизация повлияет почти на все предложения и, таким образом, приведет к значительному улучшению показателей BLEU.

Существует бесконечное количество возможных токенизаций. Например, следующие французские предложения являются переводами с английского, к которым я применил 5 различных токенизаторов. Примечание: я использовал Моисей (с открытым исходным кодом, лицензия LGPL) и SacreBLEU (с открытым исходным кодом, лицензия Apache 2.0).

Это одни и те же предложения, но, поскольку они маркированы по-разному, они будут соответствовать другим лексемам из справочных переводов. Все эти токенизации дадут разные оценки BLEU, а переводы останутся прежними.

Вот почему две оценки BLEU, вычисленные для переводов, для которых токенизация различна или неизвестна, не могут сравниваться.

Это часто забывают в научных работах в настоящее время.

Вы можете увидеть токенизацию как параметр BLEU. Если вы измените параметры, вы измените метрику. Оценки двух разных показателей нельзя сравнивать.

Когда в 2001 году был предложен BLEU, качество машинного перевода сильно отличалось.

Чтобы дать вам представление об этой разнице, я попытался воссоздать систему машинного перевода с французского на английский 2000-х годов. Для этой цели я обучил систему статистического машинного перевода на основе слов. я сделал это с Моисей. Я буду обозначать эту систему «статистическая МТ (2001 г.)».

Затем я обучил систему нейронного машинного перевода, используя стандартную модель Transformer. я сделал это с Мэриан (с открытым исходным кодом, лицензия MIT). Я буду обозначать эту систему «нейронный МТ (2022)».

Переводы, которые они генерируют, следующие. Примечание. Я выделил n-граммы, соответствующие справочному переводу.

Как и ожидалось, перевод, генерируемый статистическим MT, не имеет особого смысла, особенно ближе к концу предложения. Он охватывает меньше n-грамм из эталонного перевода, чем нейронный MT. С другой стороны, перевод, сгенерированный нейронным MT, выглядит идеально (без контекста), но он не совсем такой же, как эталонный перевод, поэтому он будет оштрафован BLEU.

В 2001 году системы машинного перевода создавали переводы, которые зачастую были бессмысленными и содержали очевидные синтаксические ошибки. Их справедливо оштрафовали за несоответствие конкретным справочным переводам. В настоящее время нейронный машинный перевод часто обеспечивает очень беглый перевод, особенно для «простых» языковых пар, таких как французский-английский. Часто они находят правильный перевод, но, поскольку существует множество возможных правильных переводов, обнаружение точного перевода, используемого в качестве ссылки, может произойти только случайно.

Здесь мы достигаем предела BLEU, который вознаграждает только точные совпадения, даже если перевод верен.

BLEU уже много лет руководит исследованиями в области машинного перевода. На NAACL 2018 авторы BLEU получили награда за испытание временем.

BLEU до сих пор используется во многих областях ИИ, но только по привычке. В настоящее время он во многом уступает многим другим показателям оценки для задач генерации естественного языка, включая машинный перевод, таких как хрФ, БЛЕРТили COMET.

Тем не менее, BLEU остается очень хороший инструмент для диагностических целей.

Поскольку BLEU имеет хорошо известное поведение, т. е. мы знаем, какой уровень BLEU следует ожидать для конкретных задач перевода, его можно использовать для быстрого обнаружения ошибок и других проблем в конвейере обучения системы машинного перевода или при ее обработке данных.

В любом случае, БЛЕУ не следует использовать в коротких текстах. На практике специалисты по машинному переводу всегда используют BLEU для текстов, содержащих более 1,000 предложений. BLEU предназначен для оценки перевода документов. Его не следует использовать для оценки перевода предложения.

Что касается реализаций BLEU, многие из них общедоступны. Hugging Face имеет собственную реализацию в Оценить библиотеку. НЛТК также реализует BLEU. Существует также multi-bleu.perl сценарий в проекте Моисей. Обратите внимание, что все эти реализации BLEU различны и не дадут сопоставимых результатов. Моя личная рекомендация — использовать оригинальную реализацию SacreBLEU поскольку этот инструмент был призван гарантировать воспроизводимость и сопоставимость оценок BLEU.

И если вы планируете использовать BLEU в своей следующей работе, не упускайте из виду необходимость проверить статистическую значимость ваших результатов.

Лучший способ поддержать мою работу — стать участником Medium, воспользовавшись моей ссылкой:

Если вы уже являетесь участником и хотите поддержать эту работу, просто следуй за мной на среднем.

BLEU: неправильно понятый показатель из другой эпохи, переизданный из источника https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 через https://towardsdatascience. ком/канал

<!–

Отметка времени: 4 ноября 20226 ноября 2022