BLEU: Eine missverstandene Metrik aus einer anderen Zeit

Wird aber auch heute noch in der KI-Forschung verwendet

Eine blaue Wand – Bild von Pixabay

GPT-3, Flüstern, Palme, NLLB, TORTEund viele andere Modelle wurden alle mit der Metrik BLEU bewertet, um ihre Überlegenheit bei einigen Aufgaben zu behaupten.

Aber was genau ist BLEU? Wie funktioniert es?

In diesem Artikel gehen wir 20 Jahre zurück, um die Hauptgründe aufzuzeigen, die BLEU ins Leben riefen und es zu einer sehr erfolgreichen Metrik machten. Wir werden uns anhand einiger Beispiele ansehen, wie BLEU funktioniert. Ich werde auch die Hauptgrenzen der Metrik hervorheben und Empfehlungen für deren Verwendung geben.

Dieser Artikel ist als Einführung in BLEU gedacht, kann aber auch eine gute Erinnerung für erfahrene NLP-/KI-Praktiker sein, die BLEU eher aus Gewohnheit als aus Notwendigkeit nutzen.

BLEU wurde erstmals 2001 in einem von Kishore Papineni, Salim Roukos, Todd Ward und Wei-Jing Zhu gemeinsam verfassten IBM-Forschungsbericht beschrieben. Sie veröffentlichten einen wissenschaftliche Arbeit, die es beschreibt ein Jahr später bei ACL 2002, das viel häufiger zitiert wird und leichter zu finden ist.

BLEU wurde ursprünglich als automatische Metrik zur Bewertung der maschinellen Übersetzung (MT) vorgeschlagen.

Im Jahr 2001 wurden maschinelle Übersetzungssysteme noch hauptsächlich manuell oder mithilfe älterer automatischer Metriken wie WER bewertet (Wortfehlerrate). WER ist eine von der Levenshtein-Distanz inspirierte Metrik und wird auch heute noch zur Bewertung von Spracherkennungssystemen verwendet. Für die maschinelle Übersetzungsbewertung kann WER als Vorfahr von BLEU angesehen werden. Die Autoren von BLEU drücken es wie folgt aus:

Wir gestalten unsere Nähemetrik nach der äußerst erfolgreichen Wortfehlerratenmetrik, die von der Spracherkennungs-Community verwendet wird

Wie WER ist BLEU eine Metrik, die misst wie nah ein Text an von Menschen erstellten Referenztexten ist, zB Referenzübersetzungen.

Da es sich bei der Übersetzung um eine Aufgabe mit mehreren korrekten Lösungen handelt, haben die Autoren von BLEU ihre Metrik so konzipiert, dass sie mehrere Referenzübersetzungen verarbeiten kann. Dies war zu diesem Zeitpunkt nicht neu, da WER bereits in ein „mWER“ umgewandelt wurde, um auch mehrere Referenzen verarbeiten zu können. Soweit ich weiß, wurde es zuerst vorgeschlagen von Alshawi et al. (1998) von AT&T Labs.

Es ist wichtig zu beachten, dass die Autoren in der gesamten Arbeit, in der BLEU vorgestellt wird, immer davon ausgehen, dass für ihre Metrik mehrere Referenzübersetzungen verwendet werden. Sie diskutieren kurz die Verwendung einer einzelnen Referenzübersetzung, um nur unter bestimmten Umständen korrekt zu sein:

Wir können ein großes Testkorpus mit einer einzigen Referenzübersetzung verwenden, vorausgesetzt, dass die Übersetzungen nicht alle vom selben Übersetzer stammen.

Im Gegensatz dazu verwenden heutzutage die meisten Forschungsarbeiten BLEU mit a einzelne Referenz, oft von einem unbekannte HerkunftUnd für mehrere Aufgaben, also nicht nur Übersetzung.

Seit 2001 ist BLEU gelinde gesagt eine sehr erfolgreiche Kennzahl. Dies lag zum Teil daran, dass günstiger Rechenaufwand und für Reproduzierbarkeit der BLEU-Scores, im Gegensatz zur menschlichen Bewertung, bei der die Ergebnisse je nach Bewerter und Bewertungsrahmen stark variieren können.

BLEU ist jetzt Wird in fast 100 % der Forschungsarbeiten zur maschinellen Übersetzung verwendet und hat sich weitgehend auf andere Aufgaben zur Erzeugung natürlicher Sprache ausgeweitet.

Genauer gesagt bewertet BLEU, wie gut die N-Gramm einer Übersetzung sind passend zu den N-Gramm aus einer Reihe von Referenzübersetzungen, während die maschinelle Übersetzung wird bestraft, wenn sie kürzer oder länger ist als die Referenzübersetzungen.

Einige Definitionen:

An n-Gramm ist eine Folge von Token. Definieren wir hier auch, dass a Zeichen ist eine Folge von Zeichen, die willkürlich durch Leerzeichen getrennt werden. Zum Beispiel der Satz „Ein Token ist kein Wort.“ wird oft als „ein Token ist kein Wort“ tokenisiert. Wir werden später in diesem Artikel mehr über die äußerst wichtige Rolle der Tokenisierung diskutieren.

Um BLEU in Aktion zu sehen, habe ich mir ein Beispiel aus dem BLEU-Papier ausgeliehen und einen Satz auf Chinesisch (nicht von den Autoren bereitgestellt) ins Englische übersetzt. Wir haben die folgenden 2 Übersetzungen durch maschinelle Übersetzung generiert:

Bild vom Autor

Und die folgenden 3 von Menschen bereitgestellten Referenzübersetzungen:

Bild vom Autor

Die Frage, die wir mit BLEU beantworten wollen, lautet:

Welche Übersetzung kommt den angegebenen Referenzübersetzungen am nächsten?

Ich habe alle N-Gramme hervorgehoben, die in den Referenzübersetzungen beider Kandidatenübersetzungen abgedeckt sind.

Bild vom Autor

Kandidat 1 deckt viel mehr N-Gramme aus den Referenzübersetzungen ab, und da seine Länge (Anzahl der Token) auch einigermaßen mit der Länge der Referenzübersetzungen übereinstimmt, erhält er einen höheren BLEU-Score als Kandidat 2. Hier ist BLEU seit Kandidat 1 korrekt ist tatsächlich besser als Kandidat 2.

Anhand dieses Beispiels können wir einige offensichtliche Grenzen von BLEU erkennen. Die Bedeutung der ausgewerteten Übersetzung wird nicht berücksichtigt. BLEU suchte nur nach exakten Übereinstimmungen mit den Tokens der Referenzübersetzungen.

Zum Beispiel, "gewährleisten” im Kandidaten 2 steht nicht in den Referenzübersetzungen, aber „sorgt" Ist. Seit "gewährleisten„ist nicht genau dasselbe wie „sorgt“, belohnt BLEU es nicht, obwohl es eine nahe Bedeutung hat.

Es kann sogar noch schlimmer sein, wenn wir uns die Satzzeichen genau ansehen. Kandidat 2 endet beispielsweise mit einem „.” aber dieser Zeitraum ist angehängt an „lenken.” um einen einzigen Token zu bilden. „lenken.„ist kein Zeichen der Referenzübersetzungen. Kandidat 2 wird für die korrekte Angabe dieses Zeitraums nicht belohnt.

Aus diesem Grund wird BLEU normalerweise anhand von Übersetzungen berechnet, die tokenisiert werden, um Token mit Satzzeichen aufzuteilen. Wir werden es im nächsten Abschnitt weiter besprechen.

Der Einfachheit halber werde ich nicht auf die Gleichungen hinter BLEU eingehen. Wenn Sie daran interessiert sind, BLEU selbst zu berechnen, lade ich Sie ein, das BLEU-Papier zu lesen, in dem alle Gleichungen gut begründet und erklärt sind.

Wir haben gesehen, dass BLEU sehr streng ist, da ein Token mit einem Token in den Referenzübersetzungen identisch sein muss, um als Übereinstimmung zu gelten. Hier spielt die Tokenisierung eine sehr wichtige Rolle oft missverstanden Rolle.

Die Tokenisierung gibt einiges Flexibilität zu BLEU.

Schauen wir uns zum Beispiel noch einmal Kandidat 2 an:

Damit soll sichergestellt werden, dass die Truppen stets den von der Partei geleiteten Aktivitätsführer hören.

Aber dieses Mal wenden wir einfache Tokenisierungsregeln an, um Satzzeichen von Wörtern zu trennen. Wir erhalten:

Damit soll sichergestellt werden, dass die Truppen stets den von der Partei geleiteten Aktivitätsführer hören.

Beachten Sie, dass ".„wurde getrennt von „Direkt” durch ein Leerzeichen. Dies ist der einzige Unterschied. Kandidat 2 stimmt nun mit einem weiteren Token aus den Referenzübersetzungen überein. Dieser Token ist „.“. Es scheint nicht wichtig zu sein, da es sich nur um einen weiteren Token handelt, aber dieser kommt sehr häufig vor. Diese Tokenisierung wird Auswirkungen auf fast alle Sätze haben und somit zu deutlich besseren BLEU-Scores führen.

Es gibt unendlich viele mögliche Tokenisierungen. Die folgenden französischen Sätze sind beispielsweise Übersetzungen aus dem Englischen, auf die ich fünf verschiedene Tokenizer anwende. Hinweis: Ich habe verwendet Moses (Open Source, LGPL-Lizenz) und SacreBLEU (Open Source, Apache-Lizenz 2.0).

Bild vom Autor

Dies sind die gleichen Sätze, aber da sie unterschiedlich tokenisiert sind, stimmen sie mit anderen Token aus den Referenzübersetzungen überein. Alle diese Tokenisierungen führen zu unterschiedlichen BLEU-Scores, während die Übersetzungen gleich bleiben.

Aus diesem Grund können zwei BLEU-Scores, die für Übersetzungen berechnet wurden, deren Tokenisierung unterschiedlich oder unbekannt ist, nicht verglichen werden.

Das ist oft übersehen in wissenschaftlichen Arbeiten heutzutage.

Sie können die Tokenisierung als Parameter von BLEU sehen. Wenn Sie die Parameter ändern, ändern Sie die Metrik. Ergebnisse aus zwei unterschiedlichen Metriken können nicht verglichen werden.

Als BLEU im Jahr 2001 vorgeschlagen wurde, war die Qualität der maschinellen Übersetzung sehr unterschiedlich.

Um Ihnen eine Vorstellung von diesem Unterschied zu vermitteln, habe ich versucht, ein maschinelles Übersetzungssystem vom Französischen ins Englische aus den 2000er Jahren nachzubilden. Zu diesem Zweck habe ich ein wortbasiertes statistisches maschinelles Übersetzungssystem trainiert. Ich habe es mit gemacht Moses. Ich werde dieses System als „statistisches MT (2001)“ bezeichnen.

Dann habe ich ein neuronales maschinelles Übersetzungssystem mithilfe eines Vanilla-Transformer-Modells trainiert. Ich habe es mit gemacht Marian (Open Source, MIT-Lizenz). Ich werde dieses System „neuronales MT (2022)“ nennen.

Die von ihnen generierten Übersetzungen sind wie folgt. Hinweis: Ich habe die N-Gramme hervorgehoben, die mit der Referenzübersetzung übereinstimmen.

Bild vom Autor

Wie erwartet ergibt die durch statistische MT generierte Übersetzung wenig Sinn, insbesondere gegen Ende des Satzes. Es deckt weniger N-Gramm von der Referenzübersetzung ab als neuronale MT. Andererseits sieht die durch neuronale MT generierte Übersetzung perfekt aus (ohne Kontext), stimmt jedoch nicht genau mit der Referenzübersetzung überein und wird daher von BLEU bestraft.

Im Jahr 2001 erzeugten maschinelle Übersetzungssysteme oft bedeutungslose Übersetzungen mit offensichtlichen syntaktischen Fehlern. Sie wurden zu Recht dafür bestraft, dass bestimmte Referenzübersetzungen nicht übereinstimmten. Heutzutage erzeugt die neuronale maschinelle Übersetzung häufig sehr flüssige Übersetzungen, insbesondere für „einfache“ Sprachpaare wie Französisch-Englisch. Sie finden oft die richtige Übersetzung, aber da es viele mögliche korrekte Übersetzungen gibt, kann es nur Zufall sein, dass sie die genaue Übersetzung, die als Referenz dient, finden.

Hier stoßen wir an die Grenzen von BLEU, das nur exakte Übereinstimmungen belohnt, selbst wenn die Übersetzung korrekt ist.

BLEU leitet seit vielen Jahren den Fortschritt in der maschinellen Übersetzungsforschung. Auf der NAACL 2018 erhielten die Autoren von BLEU eine zeitgemäße Auszeichnung.

BLEU wird immer noch in vielen Bereichen der KI verwendet, allerdings nur aus Gewohnheiten. Es wird mittlerweile von vielen anderen Bewertungsmetriken für Aufgaben zur Generierung natürlicher Sprache, einschließlich maschineller Übersetzung, weit übertroffen, wie z chrF, BLEURT, oder COMET.

Dennoch bleibt BLEU ein Sehr gutes Werkzeug für Diagnosezwecke.

Da BLEU ein bekanntes Verhalten aufweist, d. h. wir wissen, welches BLEU-Niveau für bestimmte Übersetzungsaufgaben zu erwarten ist, kann es verwendet werden, um Fehler und andere Probleme in der Trainingspipeline eines maschinellen Übersetzungssystems oder in seiner Datenverarbeitung schnell zu erkennen.

Auf jeden Fall BLEU sollte nicht für kurze Texte verwendet werden. In der Praxis führen maschinelle Übersetzungsexperten BLEU immer für Texte mit mehr als 1,000 Sätzen aus. BLEU soll die Übersetzung von Dokumenten bewerten. Es sollte nicht zur Bewertung der Satzübersetzung verwendet werden.

Viele Implementierungen von BLEU sind öffentlich verfügbar. Hugging Face hat eine eigene Implementierung im Bibliothek bewerten. NLTK implementiert auch BLEU. Es gibt auch die multi-bleu.perl Drehbuch im Moses-Projekt. Beachten Sie, dass alle diese Implementierungen von BLEU unterschiedlich sind und keine vergleichbaren Ergebnisse liefern. Meine persönliche Empfehlung ist, die ursprüngliche Implementierung von zu verwenden SacreBLEU da dieses Tool die Reproduzierbarkeit und Vergleichbarkeit der BLEU-Scores gewährleisten sollte.

Und wenn Sie planen, BLEU in Ihrer nächsten Arbeit zu verwenden, vergessen Sie nicht die Notwendigkeit, die statistische Signifikanz Ihrer Ergebnisse zu testen.

Der beste Weg, meine Arbeit zu unterstützen, besteht darin, über meinen Link Medium-Mitglied zu werden:

Wenn Sie bereits Mitglied sind und diese Arbeit unterstützen möchten, dann melden Sie sich einfach an folge mir auf Medium.

BLEU: Eine missverstandene Metrik aus einem anderen Zeitalter, neu veröffentlicht aus der Quelle https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 über https://towardsdatascience. com/feed

<!–

->

Zeitstempel:

Mehr von Blockchain-Berater