BLEU: Μια παρεξηγημένη μέτρηση από μια άλλη εποχή

Αλλά εξακολουθεί να χρησιμοποιείται σήμερα στην έρευνα AI

Ένας μπλε τοίχος - Εικόνα από Pixabay

GPT-3, Whisper - Ακουστικά, Παλάμη, NLLB, ΦΛΑΝ, και πολλά άλλα μοντέλα έχουν αξιολογηθεί όλα με το μετρικό BLEU για να διεκδικήσουν την υπεροχή τους σε ορισμένες εργασίες.

Τι είναι όμως ακριβώς το BLEU; Πώς λειτουργεί;

Σε αυτό το άρθρο, θα επιστρέψουμε πριν από 20 χρόνια για να εκθέσουμε τους κύριους λόγους που έφεραν το BLEU στην ύπαρξη και το έκαναν μια πολύ επιτυχημένη μέτρηση. Θα δούμε πώς λειτουργεί το BLEU με μερικά παραδείγματα. Θα επισημάνω επίσης τα κύρια όρια της μέτρησης και θα παράσχω συστάσεις για τον τρόπο χρήσης της.

Αυτό το άρθρο θεωρείται ως μια εισαγωγή στο BLEU, αλλά μπορεί επίσης να είναι μια εξαιρετική υπενθύμιση για έμπειρους επαγγελματίες NLP/AI που χρησιμοποιούν το BLEU από συνήθειες και όχι από ανάγκη.

Το BLEU περιγράφηκε για πρώτη φορά σε μια ερευνητική έκθεση της IBM που συντάχθηκε από τους Kishore Papineni, Salim Roukos, Todd Ward και Wei-Jing Zhu, το 2001. Δημοσίευσαν ένα επιστημονική εργασία που την περιγράφει ένα χρόνο αργότερα στο ACL 2002, το οποίο αναφέρεται πολύ περισσότερο και είναι εύκολο να βρεθεί.

Το BLEU προτάθηκε αρχικά ως αυτόματη μέτρηση για την αξιολόγηση της μηχανικής μετάφρασης (MT).

Το 2001, τα συστήματα μηχανικής μετάφρασης εξακολουθούσαν να αξιολογούνται κυρίως χειροκίνητα ή χρησιμοποιώντας παλαιότερες αυτόματες μετρήσεις όπως το WER (ποσοστό σφάλματος λέξης). Το WER είναι μια μέτρηση εμπνευσμένη από την απόσταση Levenshtein και εξακολουθεί να χρησιμοποιείται σήμερα για την αξιολόγηση συστημάτων αναγνώρισης ομιλίας. Για την αξιολόγηση της αυτόματης μετάφρασης, το WER μπορεί να θεωρηθεί ως πρόγονος του BLEU. Οι συντάκτες του BLEU το εκφράζουν ως εξής:

Διαμορφώνουμε τη μέτρηση εγγύτητας σύμφωνα με την εξαιρετικά επιτυχημένη μέτρηση ποσοστού σφάλματος λέξης που χρησιμοποιείται από την κοινότητα αναγνώρισης ομιλίας

Όπως το WER, το BLEU είναι μια μέτρηση που μετρά πόσο κοντά είναι ένα κείμενο με κείμενα αναφοράς που παράγονται από ανθρώπουςπ.χ. μεταφράσεις αναφοράς.

Η μετάφραση είναι μια εργασία με πολλές σωστές λύσεις, οι συγγραφείς του BLEU σχεδίασαν τη μέτρησή τους έτσι ώστε να μπορεί να χειριστεί πολλαπλές μεταφράσεις αναφοράς. Αυτό δεν ήταν καινούργιο εκείνη την εποχή, καθώς το WER είχε ήδη μετατραπεί σε "mWER" για να χειρίζεται επίσης πολλαπλές αναφορές. Από όσο γνωρίζω, προτάθηκε για πρώτη φορά από Οι Alshawi et al. (1998) από την AT&T Labs.

Είναι σημαντικό να σημειωθεί ότι, σε ολόκληρη την εργασία που παρουσιάζει το BLEU, οι συγγραφείς πάντα υποθέτουν τη χρήση πολλαπλών μεταφράσεων αναφοράς για τη μέτρησή τους. Συζητούν εν συντομία τη χρήση μιας ενιαίας μετάφρασης αναφοράς για να είναι σωστή μόνο υπό ορισμένες συνθήκες:

μπορούμε να χρησιμοποιήσουμε ένα μεγάλο δοκιμαστικό σώμα με μία μόνο μετάφραση αναφοράς, υπό την προϋπόθεση ότι οι μεταφράσεις δεν προέρχονται όλες από τον ίδιο μεταφραστή.

Αντίθετα, στις μέρες μας, οι περισσότερες ερευνητικές εργασίες χρησιμοποιούν το BLEU με α ενιαία αναφορά, συχνά από ένα άγνωστη προέλευση, Και για διάφορες εργασίεςδηλ. όχι μόνο μετάφραση.

Από το 2001, το BLEU είναι μια πολύ επιτυχημένη μέτρηση τουλάχιστον. Αυτό οφειλόταν εν μέρει σε αυτό φθηνό υπολογιστικό κόστος και την αναπαραγωγιμότητα των βαθμολογιών BLEU, σε αντίθεση με την ανθρώπινη αξιολόγηση για την οποία τα αποτελέσματα μπορεί να διαφέρουν πολύ ανάλογα με τους αξιολογητές και το πλαίσιο αξιολόγησης.

Το BLEU είναι τώρα χρησιμοποιείται σχεδόν στο 100% των ερευνητικών εργασιών μηχανικής μετάφρασης και έχει εξαπλωθεί σε μεγάλο βαθμό σε άλλες εργασίες παραγωγής φυσικής γλώσσας.

Πιο συγκεκριμένα, το BLEU αξιολογεί πόσο καλά είναι τα n-γραμμάρια μιας μετάφρασης ταιριάζουν με τα ν-γραμμάρια από ένα σύνολο μεταφράσεων αναφοράς, ενώ τιμωρία της αυτόματης μετάφρασης εάν είναι μικρότερη ή μεγαλύτερη από τις μεταφράσεις αναφοράς.

Μερικοί ορισμοί:

An n-γραμμάριο είναι μια ακολουθία μαρκών. Ας ορίσουμε επίσης εδώ ότι α ένδειξη είναι μια ακολουθία χαρακτήρων που οριοθετούνται αυθαίρετα με κενά. Για παράδειγμα, η πρόταση "ένα διακριτικό δεν είναι λέξη". Συχνά θα χαρακτηρίζεται ως "το κουπόνι δεν είναι λέξη.". Θα συζητήσουμε περισσότερα για τον εξαιρετικά σημαντικό ρόλο του tokenization αργότερα σε αυτό το άρθρο.

Για να δω το BLEU σε δράση, δανείστηκα ένα παράδειγμα από το χαρτί BLEU μιας πρότασης στα κινέζικα (δεν παρέχεται από τους συγγραφείς) μεταφρασμένη στα αγγλικά. Έχουμε αυτές τις ακόλουθες 2 μεταφράσεις που δημιουργούνται από αυτόματη μετάφραση:

Εικόνα από συγγραφέα

Και οι ακόλουθες 3 μεταφράσεις αναφοράς που παρέχονται από ανθρώπους:

Εικόνα από συγγραφέα

Η ερώτηση που θέλουμε να απαντήσουμε με το BLEU είναι:

Ποια μετάφραση είναι η πιο κοντινή στις συγκεκριμένες μεταφράσεις αναφοράς;

Τόνισα όλα τα n-gram που καλύπτονται από τις μεταφράσεις αναφοράς και στις δύο υποψήφιες μεταφράσεις.

Εικόνα από συγγραφέα

Ο υποψήφιος 1 καλύπτει πολλά περισσότερα n-γραμμάρια από τις μεταφράσεις αναφοράς και δεδομένου ότι το μήκος του (αριθμός διακριτικών) ταιριάζει επίσης εύλογα με το μήκος των μεταφράσεων αναφοράς, θα λάβει υψηλότερη βαθμολογία BLEU από τον υποψήφιο 2. Εδώ το BLEU είναι σωστό από τον υποψήφιο 1 είναι όντως καλύτερος από τον υποψήφιο 2.

Με αυτό το παράδειγμα, μπορούμε να δούμε κάποια προφανή όρια του BLEU. Το νόημα της αξιολογούμενης μετάφρασης δεν λαμβάνεται υπόψη. Το BLEU αναζήτησε μόνο ακριβείς αντιστοιχίσεις με τα διακριτικά των μεταφράσεων αναφοράς.

Για παράδειγμα, "εξασφαλίζω"στο υποψήφιο 2 δεν υπάρχει στις μεταφράσεις αναφοράς, αλλά "εξασφαλίζει" είναι. Από "εξασφαλίζωΤο “δεν είναι ακριβώς το ίδιο με το”εξασφαλίζει”, το BLEU δεν το επιβραβεύει παρά το ότι έχει στενό νόημα.

Μπορεί να είναι ακόμα χειρότερο όταν κοιτάμε προσεκτικά τα σημεία στίξης. Για παράδειγμα, ο υποψήφιος 2 τελειώνει με "." αλλά αυτή η περίοδος συνδέεται με "απευθείας.” για να σχηματίσουν ένα ενιαίο διακριτικό. "απευθείας.” δεν αποτελεί ένδειξη των μεταφράσεων αναφοράς. Ο υποψήφιος 2 δεν ανταμείβεται για τον σωστό περιορισμό αυτής της περιόδου.

Αυτός είναι ο λόγος για τον οποίο το BLEU υπολογίζεται συνήθως σε μεταφράσεις που έχουν διαμορφωθεί ως διακριτικά για να χωρίσουν τα διακριτικά που περιέχουν σημεία στίξης. Θα το συζητήσουμε περαιτέρω στην επόμενη ενότητα.

Για να το κρατήσω απλό, δεν θα συζητήσω τις εξισώσεις πίσω από το BLEU. Εάν ενδιαφέρεστε να υπολογίσετε μόνοι σας το BLEU, σας προσκαλώ να διαβάσετε το έγγραφο BLEU όπου όλες οι εξισώσεις είναι καλά παρακινημένες και επεξηγημένες.

Είδαμε ότι το BLEU είναι πολύ αυστηρό αφού ένα διακριτικό θα πρέπει να είναι πανομοιότυπο με ένα διακριτικό στις μεταφράσεις αναφοράς για να μετρηθεί ως ταίριασμα. Αυτό είναι όπου το tokenization παίζει πολύ σημαντικό αλλά συχνά παρεξηγημένα ρόλο.

Το tokenization δίνει μερικά ευελιξία στο BLEU.

Για παράδειγμα, ας δούμε ξανά τον υποψήφιο 2:

Είναι να διασφαλιστεί ότι τα στρατεύματα ακούν για πάντα τον οδηγό δραστηριοτήτων που κατευθύνει το κόμμα.

Αλλά αυτή τη φορά, εφαρμόζουμε απλούς κανόνες συμβολικής για να διαχωρίσουμε τα σημεία στίξης από τις λέξεις. Εμεις αποκτουμε:

Είναι να διασφαλιστεί ότι τα στρατεύματα ακούν για πάντα τον οδηγό δραστηριοτήτων που κατευθύνει το κόμμα.

Σημειώστε ότι «.Το "έχει διαχωριστεί από το "κατευθύνει” από ένα κενό. Αυτή είναι η μόνη διαφορά. Ο υποψήφιος 2 ταιριάζει τώρα με ένα ακόμη διακριτικό από τις μεταφράσεις αναφοράς. Αυτό το διακριτικό είναι ".". Δεν φαίνεται σημαντικό, καθώς αυτό είναι μόνο ένα ακόμη διακριτικό, αλλά αυτό είναι πολύ συχνό. Αυτό το tokenization θα έχει αντίκτυπο σε όλες σχεδόν τις προτάσεις και έτσι οδηγεί σε σημαντικά καλύτερες βαθμολογίες BLEU.

Υπάρχει άπειρος αριθμός πιθανών tokenizations. Για παράδειγμα, οι ακόλουθες γαλλικές προτάσεις είναι μεταφράσεις από τα αγγλικά στις οποίες εφαρμόζω 5 διαφορετικά tokenizers. Σημείωση: Χρησιμοποίησα Μωυσής (ανοιχτού κώδικα, άδεια LGPL) και SacreBLEU (ανοιχτού κώδικα, άδεια Apache 2.0).

Εικόνα από συγγραφέα

Αυτές είναι οι ίδιες προτάσεις, αλλά εφόσον έχουν διαφορετικά διακριτικά, θα ταιριάζουν με διαφορετικά διακριτικά από τις μεταφράσεις αναφοράς. Όλες αυτές οι tokenizations θα αποδώσουν διαφορετικές βαθμολογίες BLEU ενώ οι μεταφράσεις παραμένουν οι ίδιες.

Αυτός είναι ο λόγος για τον οποίο δύο βαθμολογίες BLEU που υπολογίζονται σε μεταφράσεις για τις οποίες το tokenization είναι διαφορετικό ή άγνωστο, δεν μπορούν να συγκριθούν.

Αυτό είναι συχνά παραβλέπεται σε επιστημονικές εργασίες στις μέρες μας.

Μπορείτε να δείτε το tokenization ως παράμετρο του BLEU. Εάν αλλάξετε τις παραμέτρους, αλλάζετε τη μέτρηση. Οι βαθμολογίες από δύο διαφορετικές μετρήσεις δεν μπορούν να συγκριθούν.

Όταν προτάθηκε το BLEU το 2001, η ποιότητα της αυτόματης μετάφρασης ήταν πολύ διαφορετική.

Για να σας δώσω μια ιδέα αυτής της διαφοράς, προσπάθησα να αναδημιουργήσω ένα σύστημα αυτόματης μετάφρασης από γαλλικά σε αγγλικά από τη δεκαετία του 2000. Για το σκοπό αυτό, εκπαίδευσα ένα σύστημα στατιστικής αυτόματης μετάφρασης βασισμένο σε λέξεις. το έκανα με Μωυσής. Θα ονομάσω αυτό το σύστημα "statistical MT (2001)."

Στη συνέχεια, εκπαίδευσα ένα νευρωνικό σύστημα μηχανικής μετάφρασης χρησιμοποιώντας ένα μοντέλο μετασχηματιστή βανίλιας. το έκανα με Marian (ανοιχτού κώδικα, άδεια MIT). Θα ονομάσω αυτό το σύστημα "νευρικό MT (2022)."

Οι μεταφράσεις που δημιουργούν είναι οι εξής. Σημείωση: Τόνισα τα n-γραμμάρια που ταιριάζουν με τη μετάφραση αναφοράς.

Εικόνα από συγγραφέα

Όπως ήταν αναμενόμενο, η μετάφραση που παράγεται από τη στατιστική MT δεν έχει πολύ νόημα, ειδικά προς το τέλος της πρότασης. Καλύπτει λιγότερα n-grams από τη μετάφραση αναφοράς από το νευρικό MT. Από την άλλη πλευρά, η μετάφραση που δημιουργείται από το νευρικό MT φαίνεται τέλεια (χωρίς πλαίσιο), αλλά δεν είναι ακριβώς η ίδια με τη μετάφραση αναφοράς, επομένως θα τιμωρηθεί από το BLEU.

Το 2001, τα συστήματα μηχανικής μετάφρασης παρήγαγαν μεταφράσεις που συχνά ήταν χωρίς νόημα και με εμφανή συντακτικά λάθη. Δικαίως τιμωρήθηκαν επειδή δεν αντιστοιχούσαν σε συγκεκριμένες μεταφράσεις αναφοράς. Στις μέρες μας, η νευρωνική μηχανική μετάφραση συχνά δημιουργεί πολύ άπταιστες μεταφράσεις, ειδικά για «εύκολα» ζεύγη γλωσσών όπως τα Γαλλικά-Αγγλικά. Συχνά θα βρουν τη σωστή μετάφραση, αλλά επειδή υπάρχουν πολλές πιθανές σωστές μεταφράσεις, η εύρεση της ακριβούς μετάφρασης που χρησιμοποιείται ως αναφορά μπορεί να συμβεί μόνο τυχαία.

Εδώ φτάνουμε στα όρια του BLEU που θα ανταμείψουν μόνο ακριβείς αντιστοιχίσεις ακόμα και όταν η μετάφραση είναι σωστή.

Το BLEU καθοδηγεί την πρόοδο στην έρευνα μηχανικής μετάφρασης εδώ και πολλά χρόνια. Στο NAACL 2018, οι συντάκτες του BLEU έλαβαν ένα βραβείο δοκιμασίας του χρόνου.

Το BLEU εξακολουθεί να χρησιμοποιείται σε πολλούς τομείς της τεχνητής νοημοσύνης, αλλά μόνο από συνήθειες. Τώρα έχει σε μεγάλο βαθμό καλύτερη απόδοση από πολλές άλλες μετρήσεις αξιολόγησης για εργασίες παραγωγής φυσικής γλώσσας, συμπεριλαμβανομένης της μηχανικής μετάφρασης, όπως π.χ. chrF, BLEURT, ή ΚΟΜΗΤΗΣ.

Παρόλα αυτά, το BLEU παραμένει α πολύ καλό εργαλείο για διαγνωστικούς σκοπούς.

Δεδομένου ότι το BLEU έχει μια πολύ γνωστή συμπεριφορά, δηλαδή, γνωρίζουμε ποιο επίπεδο BLEU πρέπει να περιμένουμε για συγκεκριμένες μεταφραστικές εργασίες, μπορεί να χρησιμοποιηθεί για τον γρήγορο εντοπισμό σφαλμάτων και άλλων προβλημάτων στη διοχέτευση εκπαίδευσης ενός συστήματος μηχανικής μετάφρασης ή στην επεξεργασία δεδομένων του.

Σε κάθε περίπτωση, BLEU δεν πρέπει να χρησιμοποιείται σε σύντομα κείμενα. Στην πράξη, οι επαγγελματίες μηχανικής μετάφρασης εκτελούν πάντα το BLEU σε κείμενα που περιέχουν περισσότερες από 1,000 προτάσεις. Το BLEU προορίζεται για την αξιολόγηση της μετάφρασης εγγράφων. Δεν θα πρέπει να χρησιμοποιείται για την αξιολόγηση της μετάφρασης προτάσεων.

Όσον αφορά τις υλοποιήσεις του BLEU, πολλές είναι διαθέσιμες στο κοινό. Το Hugging Face έχει τη δική του εφαρμογή στο Αξιολογήστε τη βιβλιοθήκη. NLTK εφαρμόζει επίσης το BLEU. Υπάρχει επίσης το multi-bleu.perl σενάριο στο έργο Moses. Σημειώστε ότι όλες αυτές οι υλοποιήσεις του BLEU είναι διαφορετικές και δεν θα αποφέρουν συγκρίσιμα αποτελέσματα. Η προσωπική μου σύσταση είναι να χρησιμοποιήσετε την αρχική υλοποίηση του SacreBLEU δεδομένου ότι αυτό το εργαλείο προοριζόταν να εγγυηθεί την αναπαραγωγιμότητα και τη συγκρισιμότητα των βαθμολογιών BLEU.

Και αν σκοπεύετε να χρησιμοποιήσετε το BLEU στην επόμενη εργασία σας, μην παραβλέπετε την ανάγκη να δοκιμάσετε τη στατιστική σημασία των αποτελεσμάτων σας.

Ο καλύτερος τρόπος για να υποστηρίξω τη δουλειά μου είναι να γίνω μέλος του Medium χρησιμοποιώντας τον σύνδεσμό μου:

Εάν είστε ήδη μέλος και θέλετε να υποστηρίξετε αυτή τη δουλειά, απλώς ακολουθήστε με στο Medium.

BLEU: Μια παρεξηγημένη μέτρηση από μια άλλη εποχή αναδημοσίευση από την Πηγή https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 μέσω https://towards. com/feed

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

->

Σφραγίδα ώρας:

Περισσότερα από Σύμβουλοι Blockchain