BLEU: Başka Bir Çağdan Yanlış Anlaşılan Bir Metrik

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Ancak bugün hala yapay zeka araştırmalarında kullanılıyor

GPT 3, Fısıltı, Avuç içi, NLLB, TURTAve diğer birçok model, bazı görevlerde üstünlüklerini iddia etmek için BLEU metriği ile değerlendirilmiştir.

Peki BLEU tam olarak nedir? O nasıl çalışır?

Bu yazımızda 20 yıl öncesine giderek BLEU'yu ortaya çıkaran ve onu çok başarılı bir metrik haline getiren ana nedenleri ortaya koyacağız. BLEU'nun nasıl çalıştığına bazı örneklerle bakacağız. Ayrıca metriğin ana sınırlarını da vurgulayacağım ve nasıl kullanılacağına dair öneriler sunacağım.

Bu makalenin BLEU'ya bir giriş olduğu düşünülüyor ancak aynı zamanda BLEU'yu ihtiyaçtan ziyade alışkanlıklara göre kullanan tecrübeli NLP/AI uygulayıcıları için de harika bir hatırlatma olabilir.

BLEU ilk kez 2001 yılında Kishore Papineni, Salim Roukos, Todd Ward ve Wei-Jing Zhu tarafından ortak yazılan bir IBM araştırma raporunda tanımlandı. bunu açıklayan bilimsel makale bir yıl sonra ACL 2002'de çok daha fazla alıntı yapıldı ve bulunması kolay oldu.

BLEU başlangıçta makine çevirisini (MT) değerlendirmek için otomatik bir ölçüm olarak önerildi.

2001 yılında, makine çevirisi sistemleri hâlâ çoğunlukla manuel olarak veya WER gibi eski otomatik ölçümler kullanılarak değerlendiriliyordu (kelime hata oranı). WER, Levenshtein mesafesinden ilham alan bir ölçümdür ve bugün hala konuşma tanıma sistemlerinin değerlendirilmesi için kullanılmaktadır. Makine çevirisi değerlendirmesi için WER, BLEU'nun atası olarak görülebilir. BLEU yazarları bunu şu şekilde ifade etmektedir:

Yakınlık ölçütümüzü, konuşma tanıma topluluğu tarafından kullanılan son derece başarılı kelime hata oranı ölçüsüne göre şekillendiriyoruz.

WER gibi BLEU da şunları ölçen bir metriktir: Bir metnin insanlar tarafından üretilen referans metinlerine ne kadar yakın olduğuörneğin referans çevirileri.

Çeviri, birden fazla doğru çözümü olan bir görev olduğundan, BLEU'nun yazarları metriklerini birden fazla referans çevirisini işleyebilecek şekilde tasarladılar. Bu o zamanlar yeni değildi çünkü WER zaten birden fazla referansı işleyecek bir "mWER"e dönüştürülüyordu. Bildiğim kadarıyla ilk kez tarafından önerildi. Alshawi ve ark. (1998) AT&T Labs'tan.

BLEU'yu sunan makalenin tamamında yazarların her zaman kendi ölçümleri için birden fazla referans çevirisinin kullanıldığını varsaydıklarını belirtmek önemlidir. Yalnızca bazı durumlarda doğru olması için tek bir referans çevirisinin kullanılmasının kullanımını kısaca tartışıyorlar:

Çevirilerin tamamının aynı çevirmenden olmaması koşuluyla, tek bir referans çevirisiyle büyük bir test külliyatı kullanabiliriz.

Bunun aksine, günümüzde çoğu araştırma makalesi BLEU'yu bir tek referans, sıklıkla birinden bilinmeyen köken, Ve için çeşitli görevleryani sadece çeviri değil.

2001'den bu yana BLEU en hafif ifadeyle çok başarılı bir ölçüm oldu. Bu kısmen onun sayesinde oldu ucuz hesaplama maliyeti ve BLEU puanlarının tekrarlanabilirliği, sonuçların değerlendiricilere ve değerlendirme çerçevesine bağlı olarak çok fazla değişebildiği insan değerlendirmesinin aksine.

BLEU şimdi makine çevirisi araştırma makalelerinin neredeyse %100'ünde kullanılıyor ve büyük ölçüde diğer doğal dil oluşturma görevlerine yayıldı.

Daha doğrusu BLEU, bir çevirinin n-gramlarının ne kadar iyi olduğunu değerlendirir. n-gramları eşleştirme bir dizi referans çeviriden, makine çevirisinin daha kısa veya daha uzun olması durumunda ceza verilmesi referans çevirilerden daha iyidir.

Bazı tanımlar:

An n gram bir dizi belirteçtir. Burada şunu da tanımlayalım: simge boşluklarla keyfi olarak sınırlandırılmış bir karakter dizisidir. Örneğin, "belirteç bir kelime değildir" cümlesi. genellikle "belirteç bir kelime değildir" şeklinde belirtilecektir. Bu makalenin ilerleyen kısımlarında tokenizasyonun son derece önemli rolü hakkında daha fazla tartışacağız.

BLEU'yu çalışırken görmek için, BLEU makalesinden İngilizce'ye çevrilmiş Çince bir cümlenin (yazarlar tarafından sağlanmayan) bir örneğini ödünç aldım. Makine çevirisiyle oluşturulan aşağıdaki 2 çeviriye sahibiz:

Ve insanlar tarafından sağlanan aşağıdaki 3 referans çeviri:

BLEU ile cevaplamak istediğimiz soru şu:

Verilen referans çevirilere en yakın çeviri hangisidir?

Her iki aday çeviride de referans çevirilerin kapsadığı tüm n-gramları vurguladım.

Aday 1, referans çevirilerden çok daha fazla n-gramı kapsamaktadır ve uzunluğu (belirteç sayısı) aynı zamanda referans çevirilerin uzunluğuyla da makul ölçüde eşleştiğinden, Aday 2'den daha yüksek bir BLEU puanı alacaktır. Burada Aday 1'den beri BLEU doğrudur. Gerçekten Aday 2'den daha iyi.

Bu örnekte BLEU'nun bazı belirgin sınırlarını görebiliriz. Değerlendirilen çevirinin anlamı dikkate alınmaz. BLEU yalnızca referans çevirilerin belirteçleriyle tam eşleşmeleri aradı.

Örneğin, "sağlamak” Aday 2'deki referans çevirilerde yok, ancak “olmasını sağlar" dır-dir. O zamandan beri "sağlamak" tam olarak " ile aynı değilolmasını sağlar”, BLEU yakın bir anlam taşımasına rağmen ödüllendirmiyor.

Noktalama işaretlerine yakından baktığımızda durum daha da kötü olabiliyor. Örneğin Aday 2 şu şekilde bitiyor:.” ancak bu süre “doğrudan.”Tek bir jeton oluşturmak için. “doğrudan.” referans çevirilerinin bir simgesi değildir. Aday 2 bu süreyi doğru bir şekilde kapsadığı için ödüllendirilmez.

BLEU'nun genellikle noktalama işaretleri içeren belirteçleri bölmek üzere simgeleştirilmiş çeviriler üzerinde hesaplanmasının nedeni budur. Bunu bir sonraki bölümde daha detaylı tartışacağız.

Basit tutmak için BLEU'nun arkasındaki denklemleri tartışmayacağım. BLEU'yu kendi başınıza hesaplamak istiyorsanız sizi tüm denklemlerin iyi motive edildiği ve açıklandığı BLEU makalesini okumaya davet ediyorum.

Bir eşleşme olarak sayılması için referans çevirilerde bir belirtecin aynı olması gerektiğinden BLEU'nun çok katı olduğunu gördük. Tokenizasyonun çok önemli olduğu yer burası ama sıklıkla yanlış anlaşılır rolü.

Tokenizasyon bazı şeyler verir esneklik BLEU'ya.

Örneğin Aday 2'ye tekrar bakalım:

Bu, birliklerin, partinin yönlendirdiği faaliyet kılavuzunu sonsuza kadar dinlemesini sağlamaktır.

Ancak bu sefer noktalama işaretlerini kelimelerden ayırmak için basit tokenizasyon kuralları uyguluyoruz. Elde ederiz:

Birliklerin, partinin yönlendirdiği faaliyet kılavuzunu sonsuza kadar dinlemesini sağlamaktır.

Bunu not et ".""den ayrıldıdirekt” bir boşlukla. Tek fark bu. Aday 2 artık referans çevirilerden bir jetonla daha eşleşiyor. Bu belirteç “.”. Bu sadece bir jeton daha olduğu için önemli görünmüyor, ancak bu çok sık görülen bir jetondur. Bu tokenizasyon neredeyse tüm cümleler üzerinde etkili olacak ve böylece önemli ölçüde daha iyi BLEU puanlarına yol açacak.

Sonsuz miktarda olası tokenizasyon vardır. Örneğin aşağıdaki Fransızca cümleler, 5 farklı tokenizer uyguladığım İngilizce'den çevirilerdir. Not: Kullandım Musa (açık kaynak, LGPL lisansı) ve KutsalBLEU (açık kaynak, Apache Lisansı 2.0).

Bunlar aynı cümlelerdir ancak farklı şekilde belirtilmiş oldukları için referans çevirilerdeki farklı belirteçlerle eşleşeceklerdir. Tüm bu tokenizasyonlar, çeviriler aynı kalırken farklı BLEU puanları verecektir.

Bu nedenle, tokenizasyonu farklı veya bilinmeyen çevirilerde hesaplanan iki BLEU puanı karşılaştırılamaz.

Bu Sıklıkla gözden kaçan Günümüzde bilimsel makalelerde.

Tokenizasyonu BLEU'nun bir parametresi olarak görebilirsiniz. Parametreleri değiştirirseniz metriği de değiştirirsiniz. İki farklı ölçümden alınan puanlar karşılaştırılamaz.

BLEU 2001 yılında önerildiğinde makine çevirisinin kalitesi çok farklıydı.

Bu fark hakkında size bir fikir verebilmek için 2000'li yılların Fransızca'dan İngilizce'ye makine çeviri sistemini yeniden oluşturmaya çalıştım. Bu amaçla kelime tabanlı istatistiksel makine çeviri sistemi geliştirdim. şununla yaptım Musa. Bu sistemi “istatistiksel MT (2001)” olarak adlandıracağım.

Daha sonra vanilya Transformer modelini kullanarak bir sinir makinesi çeviri sistemi eğittim. şununla yaptım Marian (açık kaynak, MIT lisansı). Bu sistemi “nöral MT (2022)” olarak adlandıracağım.

Oluşturdukları çeviriler aşağıdaki gibidir. Not: Referans çevirisiyle eşleşen n-gramları vurguladım.

Beklendiği gibi, istatistiksel makine çevirisinin ürettiği çeviri, özellikle cümlenin sonuna doğru pek bir anlam ifade etmiyor. Referans çevirisinden nöral MT'ye göre daha az n-gram kapsar. Öte yandan, sinirsel MT tarafından oluşturulan çeviri mükemmel görünüyor (bağlam olmadan), ancak referans çeviriyle tam olarak aynı değil, bu nedenle BLEU tarafından cezalandırılacak.

2001 yılında makine çeviri sistemleri çoğunlukla anlamsız ve bariz söz dizimi hataları içeren çeviriler üretti. Belirli referans çevirileriyle eşleşmedikleri için haklı olarak cezalandırıldılar. Günümüzde sinirsel makine çevirisi, özellikle Fransızca-İngilizce gibi "kolay" dil çiftleri için sıklıkla çok akıcı çeviriler üretiyor. Çoğu zaman doğru çeviriyi bulurlar, ancak pek çok olası doğru çeviri olduğundan, referans olarak kullanılan çevirinin aynısını bulmak ancak tesadüf eseri olabilir.

Çeviri doğru olsa bile yalnızca tam eşleşmeleri ödüllendiren BLEU'nun sınırlarına ulaştığımız yer burasıdır.

BLEU, uzun yıllardır makine çevirisi araştırmalarındaki ilerlemeye rehberlik etmiştir. NAACL 2018'de BLEU'nun yazarları şunları aldı: zaman testi ödülü.

BLEU hala yapay zekanın birçok alanında kullanılıyor, ancak yalnızca alışkanlıklar tarafından. Artık, makine çevirisi de dahil olmak üzere, doğal dil oluşturma görevleri için diğer birçok değerlendirme ölçütünden büyük ölçüde daha iyi performans göstermektedir. chrF, BLEURTya da COMET.

Bununla birlikte, BLEU bir teşhis amaçlı çok iyi bir araç.

BLEU iyi bilinen bir davranışa sahip olduğundan, yani belirli çeviri görevleri için hangi seviyede BLEU'nun beklendiğini bildiğimizden, bir makine çeviri sisteminin eğitim hattındaki veya veri işlemesindeki hataları ve diğer sorunları hızlı bir şekilde tespit etmek için kullanılabilir.

Her durumda, BLEU kısa metinlerde kullanılmamalıdır. Uygulamada, makine çevirisi uygulayıcıları her zaman 1,000'den fazla cümle içeren metinlerde BLEU'yu çalıştırır. BLEU belge çevirisini değerlendirmek içindir. Cümle çevirisini değerlendirmek için kullanılmamalıdır.

BLEU uygulamalarına gelince, çoğu kamuya açıktır. Hugging Face'in kendi uygulaması var Kütüphaneyi değerlendir. NLTK aynı zamanda BLEU'yu da uygular. Ayrıca şu var: çoklu-bleu.perl Musa projesinde senaryo. BLEU'nun tüm bu uygulamalarının farklı olduğunu ve karşılaştırılabilir sonuçlar vermeyeceğini unutmayın. Benim kişisel tavsiyem, orijinal uygulamasını kullanmaktır. KutsalBLEU çünkü bu araç BLEU puanlarının tekrarlanabilirliğini ve karşılaştırılabilirliğini garanti etmeyi amaçlıyordu.

Bir sonraki çalışmanızda BLEU'yu kullanmayı planlıyorsanız sonuçlarınızın istatistiksel anlamlılığını test etme ihtiyacını göz ardı etmeyin.

Çalışmalarımı desteklemenin en iyi yolu, bağlantımı kullanarak Medium üyesi olmaktır:

Zaten üyeyseniz ve bu çalışmaya destek olmak istiyorsanız, sadece Beni Medium'da takip et.

BLEU: Başka Bir Çağdan Yanlış Anlaşılan Bir Metrik https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 adresinden https://towardsdatascience aracılığıyla yayınlandı. com/feed

<!–

Zaman Damgası: 4 Kasım 20226 Kasım 2022