BLEU: valesti mõistetud mõõdik teisest ajastust

Taasavaldanud Platon

järgijaid: 0

Kuid tänapäevalgi kasutatakse AI-uuringutes

GPT-3, Sosin, PALM, NLLB, FLANja paljusid teisi mudeleid on kõiki hinnatud mõõdikuga BLEU, et väita nende paremus mõnes ülesandes.

Aga mis on BLEU täpselt? Kuidas see töötab?

Selles artiklis läheme tagasi 20 aasta tagusesse aega, et paljastada peamised põhjused, mis tõid BLEU ellu ja muutsid selle väga edukaks mõõdikuks. Vaatame mõne näite varal, kuidas BLEU töötab. Toon välja ka mõõdiku peamised piirid ja annan soovitusi selle kasutamiseks.

Seda artiklit peetakse BLEU sissejuhatuseks, kuid see võib olla ka suurepärane meeldetuletus kogenud NLP/AI praktikutele, kes kasutavad BLEU-d pigem harjumuste kui vajaduste järgi.

BLEU-d kirjeldati esmakordselt IBM-i uurimisaruandes, mille kaasautoriteks olid Kishore Papineni, Salim Roukos, Todd Ward ja Wei-Jing Zhu, 2001. aastal. Nad avaldasid seda kirjeldav teadusartikkel aasta hiljem ACL 2002, mis on palju rohkem tsiteeritud ja hõlpsamini leitav.

BLEU pakuti algselt automaatse mõõdikuna masintõlke (MT) hindamiseks.

2001. aastal hinnati masintõlkesüsteeme endiselt peamiselt käsitsi või kasutades vanemaid automaatseid mõõdikuid, nagu WER (sõna veamäär). WER on Levenshteini kaugusest inspireeritud mõõdik ja seda kasutatakse ka tänapäeval kõnetuvastussüsteemide hindamiseks. Masintõlke hindamisel võib WER-i vaadelda BLEU esivanemana. BLEU autorid väljendavad seda järgmiselt:

Me kujundame oma läheduse mõõdiku kõnetuvastuse kogukonnas kasutatava ülieduka sõna veamäära mõõdiku järgi

Nagu WER, on ka BLEU mõõdik, mis mõõdab kui lähedal on tekst inimeste loodud viitetekstidele, nt viitetõlked.

Kuna tõlkimine on mitme õige lahendusega ülesanne, kujundasid BLEU autorid oma mõõdiku nii, et see suudab toime tulla mitme viitetõlkega. See ei olnud tol ajal uus, kuna WER-i muudeti juba mWER-iks, et käsitleda ka mitut viidet. Minu teadmiste kohaselt on selle esimesena välja pakkunud Alshawi et al. (1998) AT&T Labsist.

Oluline on märkida, et kogu BLEU-d tutvustavas artiklis eeldavad autorid oma mõõdiku jaoks alati mitme viitetõlke kasutamist. Nad arutavad lühidalt ühe viitetõlke kasutamist, et see oleks õige ainult teatud juhtudel:

võime kasutada suurt testkorpust ühe võrdlustõlkega, eeldusel, et kõik tõlked ei ole pärit samalt tõlkijalt.

Seevastu tänapäeval kasutatakse enamikus uurimistöödes BLEU-d koos a üks viide, sageli alates an teadmata päritoluNing erinevaid ülesandeid, st mitte ainult tõlge.

Alates 2001. aastast on BLEU olnud pehmelt öeldes väga edukas mõõdik. See oli osaliselt tingitud sellest odav arvutuskulu ja BLEU skooride reprodutseeritavus, erinevalt inimeste hindamisest, mille tulemused võivad olenevalt hindajatest ja hindamisraamistikust väga erineda.

BLEU on nüüd kasutatakse peaaegu 100% masintõlke uurimistöödes ja on suures osas levinud ka teistele loomuliku keele genereerimise ülesannetele.

Täpsemalt hindab BLEU, kui hästi on tõlke n-grammid n-grammide sobitamine võrdlustõlgete komplektist, samas masintõlke karistamine, kui see on lühem või pikem kui võrdlustõlked.

Mõned määratlused:

An n-grammi on märkide jada. Määratleme siin ka, et a sümboolne on tühikutega suvaliselt piiritletud märkide jada. Näiteks lause "märk ei ole sõna". sageli märgistatakse kui "märk ei ole sõna.". Tokeniseerimise äärmiselt olulise rolli kohta käsitleme lähemalt hiljem selles artiklis.

BLEU tegevuse nägemiseks laenasin BLEU paberist näite hiinakeelse lause kohta (autorid ei ole esitanud), mis on tõlgitud inglise keelde. Meil on järgmised 2 masintõlke abil loodud tõlget:

Ja järgmised 3 viitõlget inimeste poolt:

Küsimus, millele tahame BLEU-ga vastata, on:

Milline tõlge on antud võrdlustõlgetele kõige lähedasem?

Tõstsin esile kõik n-grammid, mis on hõlmatud viitõlketega mõlemas kandidaattõlkes.

Kandidaat 1 katab võrdlustõlgetest palju rohkem n-gramme ja kuna selle pikkus (märkide arv) ühtib mõistlikult ka võrdlustõlgete pikkusega, saab ta kõrgema BLEU skoori kui kandidaat 2. Siin on BLEU õige, kuna kandidaat 1 on tõesti parem kui kandidaat 2.

Selle näite abil näeme BLEU ilmseid piire. Hinnatud tõlke tähendust ei arvestata. BLEU otsis ainult täpseid vasteid viitõlgete tunnustega.

Näiteks, "tagama” kandidaadis 2 ei ole võrdlustõlgetes, vaid „tagab" on. Alates "tagama" ei ole täpselt sama mis "tagab”, BLEU ei premeeri seda vaatamata sellele, et sellel on lähedane tähendus.

See võib olla veelgi hullem, kui vaatame tähelepanelikult kirjavahemärke. Näiteks kandidaat 2 lõpeb tähega ".", kuid see periood on lisatud "otsene.”, et moodustada üks märk. “otsene.” ei ole viitõlgete märk. Kandidaati 2 ei premeerita selle perioodi korrektse sisestamise eest.

Seetõttu arvutatakse BLEU tavaliselt tõlgete põhjal, mis on märgistatud, et jagada kirjavahemärke sisaldavaid märke. Arutleme selle üle järgmises jaotises.

Lihtsamaks muutmiseks ma ei aruta BLEU taga olevaid võrrandeid. Kui olete huvitatud BLEU ise arvutamisest, kutsun teid lugema BLEU artiklit, kus kõik võrrandid on hästi motiveeritud ja lahti seletatud.

Nägime, et BLEU on väga range, kuna vastena arvestamiseks peaks märk olema identne viitõlgetes oleva märgiga. Siin on märgistamine väga oluline, kuid sageli valesti mõistetud roll.

Tokeniseerimine annab mõned paindlikkus BLEU-le.

Näiteks vaatame uuesti kandidaati 2:

Selle eesmärk on tagada, et väed kuuleksid igavesti selle osapoole tegevusjuhendit.

Kuid seekord rakendame kirjavahemärkide sõnadest eraldamiseks lihtsaid märgistamise reegleid. Saame:

Selle eesmärk on tagada, et väed kuuleksid igavesti selle osapoole tegevusjuhendit.

Pange tähele, et "." on eraldatud ""otsene” tühiku järgi. See on ainus erinevus. Kandidaat 2 vastab nüüd veel ühele viitõlgete märgile. See märk on ".”. See ei tundu oluline, kuna see on veel üks märk, kuid see on väga sagedane. See tokeniseerimine mõjutab peaaegu kõiki lauseid ja annab seega oluliselt paremad BLEU skoori.

Võimalikke märgistusi on lõpmatu arv. Näiteks järgmised prantsuskeelsed laused on tõlked inglise keelest, millele ma rakendan 5 erinevat märgistajat. Märkus: kasutasin Mooses (avatud lähtekoodiga, LGPL litsents) ja SacreBLEU (avatud lähtekoodiga, Apache litsents 2.0).

Need on samad laused, kuid kuna need on erinevalt märgistatud, sobivad need võrdlustõlgetest erinevate tunnustega. Kõik need märgistused annavad erinevad BLEU hinded, samas kui tõlked jäävad samaks.

Seetõttu ei saa võrrelda kahte BLEU skoori, mis on arvutatud tõlgete kohta, mille tunnus on erinev või teadmata.

See on sageli kahe silma vahele tänapäeva teadustöödes.

Tokeniseerimist näete BLEU parameetrina. Kui muudate parameetreid, muudate mõõdikut. Kahe erineva mõõdiku hindeid ei saa võrrelda.

Kui 2001. aastal BLEU välja pakuti, oli masintõlke kvaliteet väga erinev.

Et teile sellest erinevusest aimu anda, proovisin uuesti luua 2000. aastatest pärit prantsuse-inglise masintõlkesüsteemi. Selleks koolitasin välja sõnapõhise statistilise masintõlkesüsteemi. Ma tegin seda koos Mooses. Ma tähistan seda süsteemi "statistiline MT (2001)."

Seejärel koolitasin vaniljetransformaatori mudeli abil närvi masintõlkesüsteemi. Ma tegin seda koos Marian (avatud lähtekoodiga, MIT-litsents). Ma tähistan seda süsteemi "närvi MT (2022)."

Nende loodud tõlked on järgmised. Märkus: tõstsin esile viitetõlkele vastavad n-grammid.

Nagu oodatud, pole statistilise MT loodud tõlkel erilist mõtet, eriti lause lõpu poole. See katab võrdlustõlkest vähem n-gramme kui neuraalne MT. Teisest küljest näeb neuraalse MT loodud tõlge välja täiuslik (ilma kontekstita), kuid see pole täpselt sama, mis võrdlustõlge, nii et BLEU karistab seda.

2001. aastal genereerisid masintõlkesüsteemid tõlkeid, mis olid sageli mõttetud ja ilmsete süntaktiliste vigadega. Neid karistati õigustatult konkreetsete viitõlgete mittevastavuse eest. Tänapäeval genereerib närvimasintõlge sageli väga ladusaid tõlkeid, eriti "lihtsate" keelepaaride jaoks, nagu prantsuse-inglise keel. Sageli leiavad nad õige tõlke, kuid kuna võimalikke õigeid tõlkeid on palju, võib viitena kasutatud täpse tõlke leidmine juhtuda ainult juhuslikult.

Siin saavutame BLEU piirid, mis premeerib ainult täpseid vasteid isegi siis, kui tõlge on õige.

BLEU on masintõlkeuuringute edusamme juhtinud aastaid. 2018. aasta NAACL-il said BLEU autorid ajaproovi auhind.

BLEU-d kasutatakse endiselt paljudes AI valdkondades, kuid ainult harjumuste järgi. Nüüd edestavad seda suuresti paljud teised loomuliku keele genereerimise ülesannete hindamismõõdikud, sealhulgas masintõlge, näiteks chrF, BLEURTvõi COMET.

Sellest hoolimata jääb BLEU a väga hea tööriist diagnostikaks.

Kuna BLEU-l on üldtuntud käitumine, st me teame, millisel tasemel BLEU-d konkreetsete tõlkeülesannete jaoks oodata, saab seda kasutada masintõlkesüsteemi koolitusel või selle andmetöötlusel esinevate vigade ja muude probleemide kiireks tuvastamiseks.

Igal juhul BLEU ei tohiks kasutada lühikeste tekstide puhul. Praktikas kasutavad masintõlke praktikud alati BLEU-d tekstide puhul, mis sisaldavad rohkem kui 1,000 lauset. BLEU on mõeldud dokumentide tõlke hindamiseks. Seda ei tohiks kasutada lause tõlke hindamiseks.

Mis puutub BLEU rakendustesse, siis paljud on avalikult kättesaadavad. Hugging Face'il on rakenduses oma rakendus Hinda raamatukogu. NLTK rakendab ka BLEU-d. Samuti on olemas multi-bleu.perl stsenaarium Moosese projektis. Pange tähele, et kõik need BLEU rakendused on erinevad ja ei anna võrreldavaid tulemusi. Minu isiklik soovitus on kasutada algset teostust SacreBLEU kuna see tööriist oli mõeldud BLEU skooride reprodutseeritavuse ja võrreldavuse tagamiseks.

Ja kui kavatsete oma järgmises töös BLEU-d kasutada, ärge unustage vajadust testida oma tulemuste statistilist olulisust.

Parim viis oma tööd toetada on saada meediumi liikmeks, kasutades minu linki:

Kui olete juba liige ja soovite seda tööd toetada, siis lihtsalt jälgi mind meediumis.

BLEU: valesti mõistetud mõõdik teisest ajast, uuesti avaldatud allikast https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 https://towardsdatascience'i kaudu. com/feed

<!–

Ajatempel: November 4, 2022November 6, 2022