BLEU: Väärinkäsitetty mittari toisesta aikakaudesta

Julkaissut Platon

seuraajia: 0

Mutta sitä käytetään edelleen tekoälytutkimuksessa

GPT-3, Kuiskaus, paLM, NLLB, FLAN, ja monet muut mallit on kaikki arvioitu metrisellä BLEU:lla, jotta ne väittävät paremmuustaan joissakin tehtävissä.

Mutta mikä BLEU oikein on? Kuinka se toimii?

Tässä artikkelissa palaamme 20 vuotta taaksepäin paljastaaksemme tärkeimmät syyt, jotka toivat BLEU:n olemassaoloon ja tekivät siitä erittäin onnistuneen mittarin. Katsomme, miten BLEU toimii joidenkin esimerkkien avulla. Korostan myös mittarin tärkeimmät rajat ja annan suosituksia sen käyttöön.

Tätä artikkelia pidetään BLEU:n johdannona, mutta se voi olla myös loistava muistutus kokeneille NLP/AI-harjoittajille, jotka käyttävät BLEU:ta tottumusten sijaan tarpeidensa perusteella.

BLEU kuvattiin ensimmäisen kerran IBM:n tutkimusraportissa, jonka yhdessä kirjoittavat Kishore Papineni, Salim Roukos, Todd Ward ja Wei-Jing Zhu, vuonna 2001. He julkaisivat sitä kuvaava tieteellinen paperi vuotta myöhemmin ACL 2002:ssa, joka on paljon siteerattu ja helpompi löytää.

BLEU:ta ehdotettiin alun perin automaattiseksi mittariksi konekäännösten (MT) arvioimiseksi.

Vuonna 2001 konekäännösjärjestelmiä arvioitiin edelleen pääasiassa manuaalisesti tai käyttämällä vanhempia automaattisia mittareita, kuten WER (sanavirhe). WER on Levenshteinin etäisyydestä inspiroitunut mittari, jota käytetään edelleen puheentunnistusjärjestelmien arvioinnissa. Konekäännösten arvioinnissa WER voidaan pitää BLEU:n esi-isänä. BLEU:n kirjoittajat ilmaisevat sen seuraavasti:

Suunnittelemme läheisyysmittarimme puheentunnistusyhteisön käyttämän erittäin onnistuneen sanan virheprosenttimittarin mukaan

Kuten WER, BLEU on mittari, joka mittaa kuinka lähellä teksti on ihmisten tuottamia viitetekstejäesim. viitekäännökset.

Koska kääntäminen on tehtävä, jossa on useita oikeita ratkaisuja, BLEU:n kirjoittajat suunnittelivat mittarinsa niin, että se pystyy käsittelemään useita viitekäännöksiä. Tämä ei ollut tuolloin uutta, koska WER oli jo muutettu "mWER:ksi" käsittelemään myös useita viitteitä. Parhaan tietämykseni mukaan sitä on ensimmäisenä ehdottanut Alshawi et ai. (1998) AT&T Labsilta.

On tärkeää huomata, että koko BLEU:ta esittelevässä artikkelissa kirjoittajat olettavat aina useiden viitekäännösten käyttämistä mittareissaan. He käsittelevät lyhyesti yhden viitekäännöksen käyttöä, jotta se olisi oikein vain joissakin olosuhteissa:

voimme käyttää suurta testikorpusta yhdellä viitekäännöksellä, jos kaikki käännökset eivät ole samalta kääntäjältä.

Sitä vastoin nykyään useimmissa tutkimuspapereissa käytetään BLEU:ta a yksittäinen viittaus, usein osoitteesta tuntematon alkuperä, Ja erilaisia tehtäviäeli ei vain käännös.

Vuodesta 2001 lähtien BLEU on ollut vähintäänkin erittäin onnistunut mittari. Tämä johtui osittain siitä halvat laskentakustannukset ja BLEU-pisteiden toistettavuus, toisin kuin inhimillinen arviointi, jonka tulokset voivat vaihdella suuresti arvioijien ja arviointikehyksen mukaan.

BLEU on nyt käytetään lähes 100 % konekäännöstutkimuspapereista ja on laajalti levinnyt muihin luonnollisen kielen luontitehtäviin.

Tarkemmin sanottuna BLEU arvioi, kuinka hyvin käännöksen n-grammat ovat vastaa n-grammia joukosta viitekäännöksiä, kun rangaistaan konekäännöksestä, jos se on lyhyempi tai pidempi kuin viitekäännökset.

Jotkut määritelmät:

An n-grammin on merkkijono. Määritellään tässä myös, että a symbolinen on välilyönneillä mielivaltaisesti rajattu merkkijono. Esimerkiksi lause "merkki ei ole sana". usein tokenisoidaan nimellä "tunnus ei ole sana.". Keskustelemme lisää tokenisoinnin erittäin tärkeästä roolista myöhemmin tässä artikkelissa.

Nähdäkseni BLEU:n toiminnassa lainasin BLEU-paperista esimerkin kiinankielisestä lauseesta (jotka eivät ole tekijöiden toimittamia), joka on käännetty englanniksi. Meillä on seuraavat kaksi konekäännöksellä luotua käännöstä:

Ja seuraavat 3 ihmisten toimittamaa viitekäännöstä:

Kysymys, johon haluamme vastata BLEU:lla, on:

Mikä käännös on lähimpänä annettuja viitekäännöksiä?

Korostin kaikki n-grammit, jotka viitekäännökset kattavat molemmissa ehdokaskäännöksissä.

Ehdokas 1 kattaa paljon enemmän n-grammia viitekäännöksistä, ja koska sen pituus (merkkien määrä) vastaa kohtuullisesti myös viitekäännösten pituutta, se saa korkeamman BLEU-pisteen kuin ehdokas 2. Tässä BLEU on oikein, koska ehdokas 1 on todellakin parempi kuin ehdokas 2.

Tämän esimerkin avulla voimme nähdä joitain ilmeisiä BLEU:n rajoja. Arvioidun käännöksen merkitystä ei oteta huomioon. BLEU etsi vain tarkkoja osumia viitekäännösten tunnuksilla.

Esimerkiksi, "varmistaa” Ehdokas 2:ssa ei ole viitekäännöksissä, mutta ”varmistaa" On. Siitä asti kun "varmistaa"ei ole täsmälleen sama kuin"varmistaa”, BLEU ei palkitse sitä, vaikka sillä on läheinen merkitys.

Se voi olla vielä pahempaa, kun tarkastelemme välimerkkejä tarkasti. Esimerkiksi ehdokas 2 päättyy ".", mutta tämä ajanjakso liittyy "suoraan.” muodostamaan yhden merkin. "suoraan.” ei ole viitekäännösten merkki. Ehdokas 2 ei saa palkkiota tämän ajanjakson oikeasta sisällyttämisestä.

Tästä syystä BLEU lasketaan yleensä käännöksistä, jotka on tokenoitu jakamaan välimerkkejä sisältäviä tokeneita. Keskustelemme siitä lisää seuraavassa osiossa.

Yksinkertaisuuden vuoksi en keskustele BLEU:n takana olevista yhtälöistä. Jos olet kiinnostunut laskemaan BLEU:n itse, pyydän sinua lukemaan BLEU-paperin, jossa kaikki yhtälöt ovat hyvin motivoituja ja selitettyjä.

Näimme, että BLEU on erittäin tiukka, koska tunnuksen tulee olla identtinen viitekäännöksissä olevan tokenin kanssa, jotta se voidaan laskea vastaavuudeksi. Tässä tokenisaatiolla on erittäin tärkeä, mutta usein väärin ymmärretty rooli.

Tokenisointi antaa jonkin verran joustavuus BLEU:lle.

Katsotaanpa esimerkiksi uudelleen ehdokasta 2:

Sen tarkoituksena on varmistaa, että joukot kuulevat ikuisesti kyseisen puolueen ohjaaman toimintaoppaan.

Mutta tällä kertaa käytämme yksinkertaisia tokenointisääntöjä erottamaan välimerkit sanoista. Saamme:

Sen tarkoituksena on varmistaa, että joukot kuulevat ikuisesti kyseisen puolueen ohjaaman toimintaoppaan.

Ota huomioon, että "." on erotettu kohteesta "ohjata”välilyönnillä. Tämä on ainoa ero. Ehdokas 2 vastaa nyt yhtä muuta merkkiä viitekäännöksistä. Tämä merkki on ".”. Se ei vaikuta tärkeältä, koska tämä on vain yksi merkki lisää, mutta tämä on hyvin yleinen. Tämä tokenointi vaikuttaa melkein kaikkiin lauseisiin ja johtaa siten huomattavasti parempiin BLEU-pisteisiin.

Mahdollisia tokenisaatioita on ääretön määrä. Esimerkiksi seuraavat ranskalaiset lauseet ovat käännöksiä englannista, joihin käytän viittä erilaista tokenisaattoria. Huomautus: käytin Mooses (avoin lähdekoodi, LGPL-lisenssi) ja SacreBLEU (avoin lähdekoodi, Apache License 2.0).

Nämä ovat samoja lauseita, mutta koska ne on muotoiltu eri tavalla, ne vastaavat eri tokeneita viitekäännöksistä. Kaikki nämä tunnukset antavat erilaisia BLEU-pisteitä, kun taas käännökset pysyvät samoina.

Tästä syystä kahta BLEU-arvoa, jotka on laskettu käännöksistä, joiden tokenointi on erilainen tai tuntematon, ei voida verrata.

Tämä on usein unohdetaan tieteellisissä kirjoissa nykyään.

Voit nähdä tokenisoinnin BLEU:n parametrina. Jos muutat parametreja, muutat mittaria. Kahden eri mittarin pisteitä ei voi verrata.

Kun BLEU:ta ehdotettiin vuonna 2001, konekäännösten laatu oli hyvin erilainen.

Jotta saisit käsityksen tästä erosta, yritin luoda uudelleen ranskasta englanniksi konekäännösjärjestelmän 2000-luvulta. Tätä tarkoitusta varten koulutin sanapohjaisen tilastollisen konekäännösjärjestelmän. Tein sen kanssa Mooses. Merkitsen tätä järjestelmää "tilastollinen MT (2001)."

Sitten koulutin hermoston konekäännösjärjestelmän vanilla Transformer -mallilla. Tein sen kanssa Marian (avoin lähdekoodi, MIT-lisenssi). Merkitsen tätä järjestelmää "neural MT (2022)."

Niiden tuottamat käännökset ovat seuraavat. Huomautus: Korostin viitekäännöstä vastaavat n-grammit.

Kuten odotettiin, tilastollisen MT:n luomassa käännöksessä ei ole juurikaan järkeä, etenkään lauseen loppupuolella. Se kattaa vähemmän n-grammia referenssikäännöksestä kuin hermo-MT. Toisaalta hermo-MT:n luoma käännös näyttää täydelliseltä (ilman kontekstia), mutta se ei ole täsmälleen sama kuin viitekäännös, joten BLEU rankaisee sitä.

Vuonna 2001 konekäännösjärjestelmät tuottivat käännöksiä, jotka olivat usein merkityksettömiä ja joissa oli ilmeisiä syntaktisia virheitä. Heitä rangaistiin oikeutetusti, koska he eivät vastanneet tiettyjä viitekäännöksiä. Nykyään hermoston konekäännös tuottaa usein erittäin sujuvia käännöksiä, erityisesti "helppoille" kielipareille, kuten ranska-englanti. He löytävät usein oikean käännöksen, mutta koska mahdollisia oikeita käännöksiä on monia, viitteenä käytetyn tarkan käännöksen löytäminen voi tapahtua vain sattumalta.

Tässä kohtaamme BLEU:n rajat, joka palkitsee vain tarkat osumat, vaikka käännös olisi oikea.

BLEU on ohjannut konekäännöstutkimuksen kehitystä useiden vuosien ajan. NAACL 2018 -tapahtumassa BLEU:n kirjoittajat saivat testi-ajan palkinto.

BLEU:ta käytetään edelleen monilla tekoälyn alueilla, mutta vain tottumusten perusteella. Se on nyt suurelta osin parempi kuin monet muut luonnollisen kielen luontitehtävien arviointimittarit, mukaan lukien konekäännös, kuten esim. chrF, BLEURTtai COMET.

Siitä huolimatta BLEU on edelleen a erittäin hyvä työkalu diagnostisiin tarkoituksiin.

Koska BLEU:lla on tuttu käyttäytyminen, eli tiedämme, minkä tason BLEU:ta on odotettavissa tietyissä käännöstehtävissä, sen avulla voidaan nopeasti havaita virheitä ja muita ongelmia konekäännösjärjestelmän koulutusputkessa tai sen tietojenkäsittelyssä.

Joka tapauksessa BLEU ei saa käyttää lyhyissä teksteissä. Käytännössä konekääntäjät käyttävät aina BLEU:ta yli 1,000 lausetta sisältäville teksteille. BLEU on tarkoitettu dokumenttien käännösten arviointiin. Sitä ei pitäisi käyttää lauseen käännöksen arvioimiseen.

Mitä tulee BLEU:n toteutuksiin, monet ovat julkisesti saatavilla. Hugging Facella on oma toteutus Arvioi kirjasto. NLTK ottaa käyttöön myös BLEU:n. Siellä on myös multi-bleu.perl käsikirjoitus Moses-projektissa. Huomaa, että kaikki nämä BLEU:n toteutukset ovat erilaisia eivätkä ne tuota vertailukelpoisia tuloksia. Henkilökohtainen suositukseni on käyttää alkuperäistä toteutusta SacreBLEU koska tämän työkalun tarkoituksena oli taata BLEU-pisteiden toistettavuus ja vertailukelpoisuus.

Ja jos aiot käyttää BLEU:ta seuraavassa työssäsi, älä unohda tarvetta testata tulostesi tilastollista merkitystä.

Paras tapa tukea työtäni on liittyä Medium-jäseneksi linkin kautta:

Jos olet jo jäsen ja haluat tukea tätä työtä, vain seuraa minua Mediumissa.

BLEU: Väärinkäsitetty mittari toiselta aikakaudelta, julkaistu uudelleen lähteestä https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 https://towardsdatasciencen kautta. fi/syöte

<!-

Aikaleima: Marraskuussa 4, 2022Marraskuussa 6, 2022