BLEU: una metrica incompresa di un'altra epoca

Ripubblicato da Platone

Seguaci: 0

Ma utilizzato ancora oggi nella ricerca sull’intelligenza artificiale

GPT-3, Sussurro, Palma, NLLB, CREMA PASTICCIERA, e molti altri modelli sono stati tutti valutati con la metrica BLEU per rivendicare la loro superiorità in alcuni compiti.

Ma cos’è esattamente BLEU? Come funziona?

In questo articolo, torneremo indietro di 20 anni fa per esporre le ragioni principali che hanno portato alla nascita del BLEU e lo hanno reso un parametro di grande successo. Vedremo come funziona BLEU con alcuni esempi. Evidenzierò inoltre i principali limiti della metrica e fornirò consigli su come utilizzarla.

Questo articolo è pensato come un'introduzione a BLEU, ma può anche essere un ottimo promemoria per i professionisti esperti di PNL/AI che utilizzano BLEU per abitudine piuttosto che per necessità.

BLEU è stato descritto per la prima volta in un rapporto di ricerca IBM scritto da Kishore Papineni, Salim Roukos, Todd Ward e Wei-Jing Zhu, nel 2001. Hanno pubblicato uno studio articolo scientifico che lo descrive un anno dopo all'ACL 2002 che è molto più citato e facile da trovare.

BLEU è stato originariamente proposto come metrica automatica per valutare la traduzione automatica (MT).

Nel 2001, i sistemi di traduzione automatica venivano ancora valutati principalmente manualmente o utilizzando parametri automatici più vecchi come WER (tasso di errore di parola). Il WER è una metrica ispirata alla distanza di Levenshtein ed è utilizzata ancora oggi per la valutazione dei sistemi di riconoscimento vocale. Per la valutazione della traduzione automatica, WER può essere visto come un antenato di BLEU. Gli autori di BLEU lo esprimono così:

Abbiamo modellato la nostra metrica di vicinanza sulla base della metrica del tasso di errore delle parole di grande successo utilizzata dalla comunità del riconoscimento vocale

Come il WER, il BLEU è una metrica che misura quanto un testo è vicino ai testi di riferimento prodotti dagli esseri umani, ad esempio, traduzioni di riferimento.

Essendo la traduzione un compito con molteplici soluzioni corrette, gli autori di BLEU hanno progettato la loro metrica in modo che possa gestire più traduzioni di riferimento. Ciò non era una novità per l'epoca poiché il WER si stava già trasformando in un “mWER” per gestire anche riferimenti multipli. Per quanto ne so, è stato proposto per la prima volta da Alshawi et al. (1998) dai laboratori AT&T.

È importante notare che, nell’intero articolo che presenta BLEU, gli autori presuppongono sempre l’uso di più traduzioni di riferimento per la loro metrica. Discutono brevemente dell'uso di un'unica traduzione di riferimento che sia corretta solo in alcune circostanze:

possiamo utilizzare un grande corpus di prova con un'unica traduzione di riferimento, a condizione che le traduzioni non provengano tutte dallo stesso traduttore.

Al contrario, al giorno d'oggi, la maggior parte dei documenti di ricerca utilizza BLEU con a unico riferimento, spesso da un origine sconosciuta, E per vari compiti, cioè non solo traduzione.

Dal 2001, il BLEU è stato un parametro a dir poco di grande successo. Ciò era in parte dovuto al suo costo computazionale contenuto e la riproducibilità dei punteggi BLEU, al contrario della valutazione umana per la quale i risultati possono variare molto a seconda dei valutatori e del quadro di valutazione.

BLEU è adesso utilizzato in quasi il 100% degli articoli di ricerca sulla traduzione automatica e si è ampiamente diffuso ad altri compiti di generazione del linguaggio naturale.

Più precisamente, BLEU valuta la qualità degli n-grammi di una traduzione corrispondendo agli n-grammi da una serie di traduzioni di riferimento, mentre penalizzando la traduzione automatica se è più breve o più lunga rispetto alle traduzioni di riferimento.

Alcune definizioni:

An n-gram è una sequenza di token. Definiamo anche qui che a token è una sequenza di caratteri delimitata arbitrariamente da spazi. Ad esempio, la frase "un segno non è una parola". verrà spesso tokenizzato come "un token non è una parola". Discuteremo più approfonditamente del ruolo estremamente importante della tokenizzazione più avanti in questo articolo.

Per vedere BLEU in azione, ho preso in prestito dall'articolo BLEU un esempio di una frase in cinese (non fornita dagli autori) tradotta in inglese. Abbiamo queste 2 traduzioni seguenti generate dalla traduzione automatica:

E le seguenti 3 traduzioni di riferimento fornite dagli esseri umani:

La domanda a cui vogliamo rispondere con BLEU è:

Quale traduzione è la più vicina alle traduzioni di riferimento fornite?

Ho evidenziato tutti gli n-grammi coperti dalle traduzioni di riferimento in entrambe le traduzioni candidate.

Il Candidato 1 copre molti più n-grammi dalle traduzioni di riferimento e poiché la sua lunghezza (numero di token) corrisponde ragionevolmente anche alla lunghezza delle traduzioni di riferimento, otterrà un punteggio BLEU più alto rispetto al Candidato 2. Qui BLEU è corretto poiché il Candidato 1 è davvero migliore del Candidato 2.

Con questo esempio possiamo vedere alcuni limiti evidenti di BLEU. Il significato della traduzione valutata non viene considerato. BLEU ha cercato solo corrispondenze esatte con i token delle traduzioni di riferimento.

Per esempio, "garantire" nel Candidato 2 non è nelle traduzioni di riferimento, ma "assicura" È. Da "garantire" non è esattamente la stessa cosa di "assicura”, BLEU non lo premia pur avendo un significato stretto.

Può essere anche peggio se osserviamo attentamente i segni di punteggiatura. Ad esempio, il Candidato 2 termina con "." ma questo periodo è collegato a "immediatamente.” per formare un unico token. “immediatamente." non è un segno delle traduzioni di riferimento. Il candidato 2 non viene premiato per aver contenuto correttamente questo periodo.

Questo è il motivo per cui BLEU viene solitamente calcolato su traduzioni tokenizzate per dividere token contenenti segni di punteggiatura. Ne parleremo ulteriormente nella prossima sezione.

Per semplicità, non discuterò le equazioni alla base di BLEU. Se sei interessato a calcolare BLEU da solo, ti invito a leggere il documento BLEU in cui tutte le equazioni sono ben motivate e spiegate.

Abbiamo visto che BLEU è molto rigido poiché un token dovrebbe essere identico a un token nelle traduzioni di riferimento per contare come una corrispondenza. È qui che la tokenizzazione gioca un ruolo molto importante spesso frainteso ruolo.

La tokenizzazione ne dà alcuni flessibilità al BLEU.

Ad esempio, esaminiamo nuovamente il Candidato 2:

È per garantire che le truppe ascoltino per sempre la guida alle attività diretta da quel partito.

Ma questa volta applichiamo semplici regole di tokenizzazione per separare i segni di punteggiatura dalle parole. Otteniamo:

È per garantire che le truppe ascoltino per sempre la guida alle attività diretta da quel partito.

Notare che "." è stato separato da "dirette" da uno spazio. Questa è l'unica differenza. Il candidato 2 ora corrisponde a un ulteriore token dalle traduzioni di riferimento. Questo token è “.”. Non sembra importante poiché questo è solo un altro token, ma è molto frequente. Questa tokenizzazione avrà un impatto su quasi tutte le frasi e porterà quindi a punteggi BLEU significativamente migliori.

Esiste una quantità infinita di possibili tokenizzazioni. Ad esempio, le seguenti frasi francesi sono traduzioni dall'inglese a cui applico 5 diversi tokenizzatori. Nota: ho usato Mosé (open source, licenza LGPL) e SacreBLEU (open source, licenza Apache 2.0).

Queste sono le stesse frasi, ma poiché sono tokenizzate in modo diverso corrisponderanno a token diversi dalle traduzioni di riferimento. Tutte queste tokenizzazioni produrranno punteggi BLEU diversi mentre le traduzioni rimarranno le stesse.

Questo è il motivo per cui non è possibile confrontare due punteggi BLEU calcolati su traduzioni per le quali la tokenizzazione è diversa o sconosciuta.

Questo è anche spesso trascurato negli articoli scientifici di oggi.

Puoi vedere la tokenizzazione come un parametro di BLEU. Se cambi i parametri cambi la metrica. I punteggi di due parametri diversi non possono essere confrontati.

Quando BLEU fu proposto nel 2001, la qualità della traduzione automatica era molto diversa.

Per darti un’idea di questa differenza, ho provato a ricreare un sistema di traduzione automatica dal francese all’inglese degli anni 2000. A questo scopo, ho addestrato un sistema di traduzione automatica statistica basato su parole. L'ho fatto con Mosé. Denominerò questo sistema “MT statistico (2001)”.

Quindi, ho addestrato un sistema di traduzione automatica neurale utilizzando un modello Transformer vanilla. L'ho fatto con Marian (open source, licenza MIT). Denoterò questo sistema “MT neurale (2022)”.

Le traduzioni che generano sono le seguenti. Nota: ho evidenziato gli n-grammi corrispondenti alla traduzione di riferimento.

Come previsto, la traduzione generata dalla MT statistica non ha molto senso, soprattutto verso la fine della frase. Copre meno n-grammi dalla traduzione di riferimento rispetto alla MT neurale. D'altra parte, la traduzione generata dalla MT neurale sembra perfetta (senza contesto), ma non è esattamente la stessa traduzione di riferimento quindi sarà penalizzata da BLEU.

Nel 2001 i sistemi di traduzione automatica generavano traduzioni spesso prive di significato e con evidenti errori sintattici. Sono stati giustamente penalizzati per non aver abbinato particolari traduzioni di riferimento. Al giorno d’oggi, la traduzione automatica neurale genera spesso traduzioni molto fluide, soprattutto per combinazioni linguistiche “facili” come francese-inglese. Troveranno spesso la traduzione giusta, ma poiché le possibili traduzioni corrette sono molte, trovare la traduzione esatta utilizzata come riferimento può avvenire solo per caso.

È qui che raggiungiamo i limiti di BLEU che premierà solo le corrispondenze esatte anche quando la traduzione è corretta.

BLEU guida da molti anni il progresso della ricerca sulla traduzione automatica. Al NAACL 2018, gli autori di BLEU hanno ricevuto un premio per la prova del tempo.

BLEU è ancora utilizzato in molte aree dell’intelligenza artificiale, ma solo per abitudine. Ora è ampiamente superato da molti altri parametri di valutazione per le attività di generazione del linguaggio naturale, inclusa la traduzione automatica, come ad esempio chrF, BLEURT, o COMET.

Tuttavia, BLEU rimane un ottimo strumento per scopi diagnostici.

Poiché BLEU ha un comportamento ben noto, ovvero sappiamo quale livello di BLEU aspettarci per particolari attività di traduzione, può essere utilizzato per individuare rapidamente bug e altri problemi nella pipeline di addestramento di un sistema di traduzione automatica o nella sua elaborazione dei dati.

In ogni caso, BLEU non dovrebbe essere usato su testi brevi. In pratica, i professionisti della traduzione automatica eseguono sempre BLEU su testi contenenti più di 1,000 frasi. BLEU ha lo scopo di valutare la traduzione di documenti. Non dovrebbe essere usato per valutare la traduzione di frasi.

Per quanto riguarda le implementazioni di BLEU, molte sono disponibili al pubblico. Hugging Face ha una propria implementazione in Valuta la biblioteca. NLTK implementa anche BLEU. C'è anche il multi-bleu.perl script nel progetto Moses. Tieni presente che tutte queste implementazioni di BLEU sono diverse e non produrranno risultati comparabili. La mia raccomandazione personale è di utilizzare l'implementazione originale di SacreBLEU poiché questo strumento doveva garantire la riproducibilità e la comparabilità dei punteggi BLEU.

E se prevedi di utilizzare BLEU nel tuo prossimo lavoro, non trascurare la necessità di testare la significatività statistica dei tuoi risultati.

Il modo migliore per supportare il mio lavoro è diventare un membro di Medium utilizzando il mio link:

Se sei già membro e vuoi sostenere questo lavoro, basta seguimi su Medium.

BLEU: una metrica incompresa di un'altra epoca ripubblicata dalla fonte https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 tramite https://towardsdatascience. com/feed

<!–

Timestamp: 4 Novembre 20226 Novembre 2022