BLEU: 別の時代の誤解されている指標

プラトン再発行

フォロワー： 0

しかし、今日でも AI 研究で使用されています

GPT-3, ウィスパー, 手のひら, NLLB, フラン、および他の多くのモデルはすべて、一部のタスクでの優位性を主張するために、BLEU という指標で評価されています。

しかし、BLEU とは一体何なのでしょうか?どのように機能するのでしょうか?

この記事では、20 年前に遡って、BLEU を誕生させ、それを非常に成功した指標にした主な理由を明らかにします。いくつかの例を使用して、BLEU がどのように機能するかを見ていきます。また、メトリクスの主な制限を強調し、その使用方法に関する推奨事項も示します。

この記事は BLEU の入門書として考えられていますが、必要性ではなく習慣で BLEU を使用している経験豊富な NLP/AI 実践者にとって素晴らしい思い出となることもあります。

BLEU は、2001 年に Kishore Papineni、Salim Roukos、Todd Ward、Wei-Jing Zhu が共著した IBM 研究報告書で初めて説明されました。それを説明した科学論文 2002 年後の ACL XNUMX では、より多く引用され、見つけやすくなりました。

BLEU はもともと、機械翻訳 (MT) を評価するための自動メトリックとして提案されました。

2001 年時点では、機械翻訳システムはまだ主に手動で評価されるか、WER などの古い自動評価基準を使用していました (単語誤り率）。 WER はレーベンシュタイン距離からインスピレーションを得た指標であり、現在でも音声認識システムの評価に使用されています。機械翻訳の評価に関しては、WER は BLEU の祖先と言えます。 BLEUの著者はそれを次のように表現しています。

私たちは、音声認識コミュニティで使用され、非常に成功した単語誤り率メトリクスに倣って近さメトリクスを作成しました。

WER と同様に、BLEU は次のことを測定するメトリクスです。 テキストが人間によって作成された参照テキストにどの程度近いか例: 参考翻訳。

翻訳は複数の正しい解決策を必要とするタスクであるため、BLEU の作成者は、複数の参照翻訳を処理できるようにメトリクスを設計しました。 WER はすでに複数の参照も処理できる「mWER」に変換されていたため、これは当時新しいことではありませんでした。私の知る限り、それを最初に提案したのはアルシャウィら。 (1998) AT&T研究所から。

BLEU を紹介する論文全体において、著者は常にその指標に複数の参照翻訳を使用することを想定していることに注意することが重要です。彼らは、特定の状況下でのみ正しい単一の参照翻訳を使用することについて簡単に説明しています。

すべての翻訳が同じ翻訳者によるものではない限り、単一の参照翻訳を含む大きなテストコーパスを使用することもできます。

対照的に、現在では、ほとんどの研究論文で BLEU が使用されています。 単一の参照、多くの場合、 起源不明、および用 さまざまなタスクつまり、翻訳だけではありません。

2001 年以来、BLEU は控えめに言っても非常に成功した指標となっています。これは部分的には 計算コストが安い と BLEUスコアの再現性、 人間による評価とは対照的に、評価者や評価の枠組みによって結果は大きく異なります。

ブルーは今機械翻訳の研究論文のほぼ 100% で使用されていますそして、他の自然言語生成タスクにも大きく広がっています。

より正確には、BLEU は翻訳の N グラムがどの程度適切であるかを評価します。 Nグラムとのマッチング 一連の参考翻訳から、 機械翻訳が短かったり長かったりした場合にペナルティを与える 参考訳よりも。

いくつかの定義:

An nグラム トークンのシーケンスです。ここでも、 トークンは、スペースで任意に区切られた一連の文字です。たとえば、「トークンは単語ではありません」という文です。多くの場合、「トークンは単語ではありません。」としてトークン化されます。トークン化の非常に重要な役割については、この記事の後半で詳しく説明します。

BLEU の動作を確認するために、BLEU 論文から中国語の文 (著者が提供したものではありません) を英語に翻訳した例を借用しました。機械翻訳によって生成された次の 2 つの翻訳があります。

そして、人間が提供した次の 3 つの参考翻訳:

BLEU で答えたい質問は次のとおりです。

指定された参考翻訳に最も近い翻訳はどれですか?

両方の候補翻訳の参照翻訳でカバーされているすべての N グラムを強調表示しました。

候補 1 は、参照翻訳からのより多くの n-gram をカバーしており、その長さ (トークンの数) も参照翻訳の長さと合理的に一致しているため、候補 2 よりも高い BLEU スコアを取得します。ここでは、候補 1 なので BLEU が正しいです。確かに候補 2 よりも優れています。

この例では、BLEU の明らかな限界がいくつかわかります。評価される翻訳の意味は考慮されません。 BLEU は、参照翻訳のトークンとの完全一致のみを検索しました。

例えば、 "確保候補 2 の「」は参考訳にはありませんが、「確実に" は。以来 "確保「」は「」とまったく同じではありません確実に」と近い意味があるにもかかわらずBLEUは報われない。

句読点をよく見るとさらに悪化する可能性があります。たとえば、候補 2 は「」で終わります。.” ですが、このピリオドは” に付いています。直接。」を使用して単一のトークンを形成します。「直接。」は参考翻訳のトークンではありません。候補 2 は、この期間を正しく含んでも報酬は得られません。

このため、BLEU は通常、句読点を含むトークンを分割するためにトークン化された翻訳に基づいて計算されます。次のセクションでさらに詳しく説明します。

話を簡単にするために、BLEU の背後にある方程式については説明しません。 BLEU を自分で計算することに興味がある場合は、すべての方程式が動機付けられて説明されている BLEU の論文を読むことをお勧めします。

一致としてカウントするには、トークンが参照翻訳内のトークンと同一である必要があるため、BLEU は非常に厳密であることがわかりました。ここでトークン化が非常に重要になりますが、 よく誤解される 役割。

トークン化によって得られるもの 柔軟性 ブルーへ。

たとえば、候補 2 をもう一度見てみましょう。

それは党が指示する活動指針を軍隊に永久に聞かせることを保障するためである。

ただし今回は、単純なトークン化ルールを適用して句読点を単語から分離します。私達は手に入れました：

それは党が指示する活動指針を軍隊が永久に聞くことを保障するためである。

ご了承ください ".「」は「」から分離されました。直接」をスペースで区切ります。これが唯一の違いです。候補 2 は、参照翻訳からのもう XNUMX つのトークンと一致します。このトークンは「.”。これはトークンが 1 つ増えただけなので重要ではないようですが、これは非常に頻繁に発生します。このトークン化はほぼすべての文に影響を与えるため、BLEU スコアが大幅に向上します。

トークン化の可能性は無限にあります。たとえば、次のフランス語の文は、5 つの異なるトークナイザーを適用した英語からの翻訳です。 注：私は使用しました モーゼ (オープンソース、LGPLライセンス)および サクレブルー (オープンソース、Apache License 2.0).

これらは同じ文ですが、異なる方法でトークン化されているため、参照翻訳の異なるトークンと一致します。これらすべてのトークン化では、翻訳は同じままですが、異なる BLEU スコアが生成されます。

これが、トークン化が異なる、または不明な翻訳に対して計算された 2 つの BLEU スコアを比較できない理由です。

これは よく見落とされる 最近の科学論文では。

トークン化はBLEUのパラメータとして確認できます。パラメータを変更すると、メトリクスも変更されます。 2 つの異なる指標からのスコアを比較することはできません。

2001 年に BLEU が提案されたとき、機械翻訳の品質は大きく異なりました。

この違いを理解していただくために、2000 年代のフランス語から英語への機械翻訳システムを再現してみました。この目的のために、私は単語ベースの統計的機械翻訳システムをトレーニングしました。でやりましたモーゼ。このシステムを「統計MT (2001)」と呼ぶことにします。

次に、バニラの Transformer モデルを使用してニューラル機械翻訳システムをトレーニングしました。でやりましたマリアン (オープンソース、MIT ライセンス)。このシステムを「neural MT (2022)」と呼ぶことにします。

生成される翻訳は次のとおりです。 注: 参照翻訳と一致する N グラムを強調表示しました。

予想通り、統計 MT によって生成された翻訳は、特に文の終わりに近づくとあまり意味がありません。ニューラル MT よりも参照翻訳からカバーされる N グラムが少なくなります。一方、ニューラル MT によって生成された翻訳は (文脈なしで) 完璧に見えますが、参照翻訳とまったく同じではないため、BLEU によってペナルティが課せられます。

2001 年、機械翻訳システムは、意味のない、明らかな構文エラーのある翻訳を生成しました。特定の参考翻訳と一致しないという理由で、当然のことながら罰せられました。現在、ニューラル機械翻訳は、特にフランス語と英語のような「簡単な」言語ペアの場合、非常に流暢な翻訳を生成することがよくあります。多くの場合、正しい翻訳が見つかるでしょうが、正しい翻訳の可能性は多数あるため、参考として使用される正確な翻訳が見つかるのは偶然にすぎない可能性があります。

ここで、翻訳が正しい場合でも完全一致のみを報酬とする BLEU の限界にぶつかります。

BLEU は、長年にわたって機械翻訳研究の進歩を指導してきました。 NAACL 2018 で、BLEU の著者は時の試練の賞.

BLEU は今でも AI の多くの分野で使用されていますが、それは習慣によってのみ使用されています。現在では、機械翻訳を含む自然言語生成タスクの他の多くの評価指標よりも大幅に優れています。 chrF, ブルートまたは COMET.

それにもかかわらず、BLEU は依然として 診断目的に非常に優れたツール.

BLEU にはよく知られた動作があるため、つまり、特定の翻訳タスクでどのレベルの BLEU が予想されるのかがわかっているため、機械翻訳システムのトレーニングパイプラインやデータ処理におけるバグやその他の問題を迅速に発見するために使用できます。

いずれにせよ、BLEU 短いテキストには使用しないでください。実際には、機械翻訳の専門家は常に 1,000 を超える文を含むテキストに対して BLEU を実行します。 BLEU は文書翻訳を評価することを目的としています。文の翻訳を評価するために使用すべきではありません。

BLEU の実装に関しては、多くが公開されています。 Hugging Face には独自の実装があります。ライブラリを評価する. NLTK BLEUも実装されています。もあります。マルチブルー.perl Moses プロジェクトのスクリプト。 BLEU のこれらの実装はすべて異なるため、同等の結果が得られないことに注意してください。私の個人的な推奨事項は、オリジナルの実装を使用することです。サクレブルーこのツールは、BLEU スコアの再現性と比較可能性を保証することを目的としているためです。

また、次の作業で BLEU を使用する予定がある場合は、結果の統計的有意性をテストする必要性を見落とさないでください。

私の仕事をサポートする最善の方法は、私のリンクを使用して Medium メンバーになることです。

すでにメンバーであり、この取り組みをサポートしたい場合は、 ミディアムで私に従ってください.

BLEU: 別の時代の誤解された指標ソース https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 から https://towardsdatascience 経由で再公開。 com/フィード

<!–

–>

タイムスタンプ： 2022 年 11 月 4 日2022 年 11 月 6 日