BLEU: Metrik yang Disalahpahami dari Zaman Lain

Diterbitkan Ulang Oleh Plato

Followers: 0

Namun masih digunakan sampai sekarang dalam penelitian AI

GPT-3, Berbisik, Telapak, NLLB, PUDING KARAMEL, dan banyak model lainnya telah dievaluasi dengan metrik BLEU untuk mengklaim keunggulannya dalam beberapa tugas.

Tapi apa sebenarnya BLEU itu? Bagaimana cara kerjanya?

Dalam artikel ini, kita akan kembali ke 20 tahun yang lalu untuk mengungkap alasan utama yang menjadikan BLEU ada dan menjadikannya metrik yang sangat sukses. Kita akan melihat cara kerja BLEU dengan beberapa contoh. Saya juga akan menyoroti batasan utama metrik dan memberikan rekomendasi tentang cara menggunakannya.

Artikel ini dianggap sebagai pengenalan tentang BLEU, namun juga dapat menjadi pengingat bagi praktisi NLP/AI berpengalaman yang menggunakan BLEU karena kebiasaan, bukan karena kebutuhan.

BLEU pertama kali dijelaskan dalam laporan penelitian IBM yang ditulis bersama oleh Kishore Papineni, Salim Roukos, Todd Ward, dan Wei-Jing Zhu, pada tahun 2001. Mereka menerbitkan sebuah makalah ilmiah yang menjelaskannya satu tahun kemudian di ACL 2002 yang lebih banyak dikutip dan mudah ditemukan.

BLEU awalnya diusulkan sebagai metrik otomatis untuk mengevaluasi terjemahan mesin (MT).

Pada tahun 2001, sistem terjemahan mesin sebagian besar masih dievaluasi secara manual, atau menggunakan metrik otomatis lama seperti WER (tingkat kesalahan kata). WER adalah metrik yang terinspirasi dari jarak Levenshtein dan masih digunakan sampai sekarang untuk evaluasi sistem pengenalan suara. Untuk evaluasi terjemahan mesin, WER dapat dilihat sebagai nenek moyang BLEU. Penulis BLEU mengungkapkannya sebagai berikut:

Kami merancang metrik kedekatan kami berdasarkan metrik tingkat kesalahan kata yang sangat sukses yang digunakan oleh komunitas pengenalan ucapan

Seperti WER, BLEU adalah metrik yang mengukur seberapa dekat suatu teks dengan teks referensi yang dihasilkan manusia, misalnya, terjemahan referensi.

Penerjemahan menjadi tugas dengan banyak solusi yang benar, penulis BLEU merancang metrik mereka sehingga dapat menangani banyak terjemahan referensi. Ini bukanlah hal baru pada saat itu karena WER telah diubah menjadi “mWER” untuk juga menangani banyak referensi. Sejauh pengetahuan saya, ini pertama kali diusulkan oleh Alshawi dkk. (1998) dari AT&T Labs.

Penting untuk dicatat bahwa, dalam keseluruhan makalah yang menyajikan BLEU, penulis selalu mengasumsikan penggunaan beberapa terjemahan referensi untuk metriknya. Mereka secara singkat membahas penggunaan terjemahan referensi tunggal yang benar hanya dalam keadaan tertentu:

kita boleh menggunakan korpus tes besar dengan terjemahan referensi tunggal, asalkan terjemahannya tidak semuanya berasal dari penerjemah yang sama.

Sebaliknya, saat ini sebagian besar makalah penelitian menggunakan BLEU dengan a referensi tunggal, sering kali dari sebuah asal tidak diketahui, Dan untuk berbagai tugas, yaitu, tidak hanya terjemahan.

Sejak tahun 2001, BLEU telah menjadi metrik yang sangat sukses. Hal ini sebagian disebabkan oleh hal tersebut biaya komputasi yang murah dan reproduksibilitas skor BLEU, dibandingkan dengan evaluasi manusia yang hasilnya dapat sangat bervariasi tergantung pada penilai dan kerangka evaluasinya.

BLEU sekarang digunakan di hampir 100% makalah penelitian terjemahan mesin dan sebagian besar telah menyebar ke tugas-tugas pembuatan bahasa alami lainnya.

Lebih tepatnya, BLEU mengevaluasi seberapa baik n-gram suatu terjemahan cocok dengan n-gram dari kumpulan terjemahan referensi, sementara menghukum terjemahan mesin jika lebih pendek atau lebih lama daripada terjemahan referensi.

Beberapa definisi:

An n-gram adalah urutan token. Mari kita definisikan juga di sini bahwa a token adalah urutan karakter yang dibatasi secara sewenang-wenang oleh spasi. Misalnya, kalimat “token bukanlah sebuah kata.” akan sering diberi token sebagai “token bukanlah sebuah kata.”. Kami akan membahas lebih lanjut tentang peran tokenisasi yang sangat penting nanti di artikel ini.

Untuk melihat cara kerja BLEU, saya meminjam contoh dari makalah BLEU yang berisi sebuah kalimat dalam bahasa Mandarin (tidak disediakan oleh penulis) yang diterjemahkan ke dalam bahasa Inggris. Kami memiliki 2 terjemahan berikut yang dihasilkan oleh terjemahan mesin:

Dan berikut 3 referensi terjemahan yang disediakan oleh manusia:

Pertanyaan yang ingin kami jawab dengan BLEU adalah:

Terjemahan manakah yang paling mendekati terjemahan referensi yang diberikan?

Saya menyoroti semua n-gram yang tercakup dalam terjemahan referensi di kedua kandidat terjemahan.

Kandidat 1 mencakup lebih banyak n-gram dari terjemahan referensi, dan karena panjangnya (jumlah token) juga sesuai dengan panjang terjemahan referensi, kandidat tersebut akan mendapatkan skor BLEU yang lebih tinggi daripada Kandidat 2. Di sini BLEU benar karena Kandidat 1 memang lebih baik dari Kandidat 2.

Dengan contoh ini, kita dapat melihat beberapa batasan yang jelas dari BLEU. Arti dari terjemahan yang dievaluasi tidak dipertimbangkan. BLEU hanya mencari kecocokan persis dengan token terjemahan referensi.

Contohnya, "memastikan” di Kandidat 2 tidak ada dalam terjemahan referensi, tapi “Memastikan" adalah. Sejak "memastikan” tidak persis sama dengan “Memastikan”, BLEU tidak mengganjarnya meski memiliki makna yang dekat.

Hal ini bisa menjadi lebih buruk lagi jika kita mencermati tanda baca. Misalnya, Kandidat 2 diakhiri dengan “.” tetapi periode ini dilampirkan pada “langsung.” untuk membentuk satu token. “langsung.” bukan merupakan tanda terjemahan referensi. Kandidat 2 tidak diberi imbalan karena memuat periode ini dengan benar.

Inilah sebabnya mengapa BLEU biasanya dihitung pada terjemahan yang diberi token menjadi token terpisah yang berisi tanda baca. Kita akan membahasnya lebih lanjut pada bagian berikutnya.

Sederhananya, saya tidak akan membahas persamaan di balik BLEU. Jika Anda tertarik untuk menghitung BLEU sendiri, saya mengundang Anda untuk membaca makalah BLEU yang semua persamaannya dimotivasi dan dijelaskan dengan baik.

Kami melihat bahwa BLEU sangat ketat karena token harus identik dengan token dalam terjemahan referensi untuk dihitung sebagai kecocokan. Di sinilah tokenisasi memainkan peran yang sangat penting sering salah paham peran.

Tokenisasi memberi beberapa manfaat fleksibilitas ke BLEU.

Misalnya mari kita lihat kembali Kandidat 2:

Hal ini untuk memastikan pasukan selalu mendengarkan buku panduan kegiatan yang diarahkan pihak tersebut.

Namun kali ini, kami menerapkan aturan tokenisasi sederhana untuk memisahkan tanda baca dari kata. Kami memperoleh:

Hal ini untuk memastikan pasukan selalu mendengarkan buku panduan kegiatan yang diarahkan pihak tersebut.

Perhatikan bahwa “.” telah dipisahkan dari “langsung” dengan spasi. Inilah satu-satunya perbedaan. Kandidat 2 sekarang mencocokkan satu token lagi dari terjemahan referensi. Tanda ini adalah “.”. Tampaknya tidak penting karena ini hanya satu token lagi, tapi ini sangat sering terjadi. Tokenisasi ini akan berdampak pada hampir semua kalimat dan dengan demikian menghasilkan skor BLEU yang jauh lebih baik.

Ada kemungkinan tokenisasi yang jumlahnya tidak terbatas. Misalnya, kalimat Perancis berikut adalah terjemahan dari bahasa Inggris yang saya terapkan 5 tokenizer berbeda. Catatan: Saya menggunakan Musa (sumber terbuka, lisensi LGPL) dan SuciBLEU (sumber terbuka, Lisensi Apache 2.0).

Ini adalah kalimat yang sama, tetapi karena diberi token secara berbeda, maka akan cocok dengan token yang berbeda dari terjemahan referensi. Semua tokenisasi ini akan menghasilkan skor BLEU yang berbeda namun terjemahannya tetap sama.

Inilah sebabnya mengapa dua skor BLEU yang dihitung pada terjemahan yang tokenisasinya berbeda, atau tidak diketahui, tidak dapat dibandingkan.

Ini adalah sering diabaikan dalam karya ilmiah saat ini.

Anda dapat melihat tokenisasi sebagai parameter BLEU. Jika Anda mengubah parameter, Anda mengubah metrik. Skor dari dua metrik berbeda tidak dapat dibandingkan.

Ketika BLEU diusulkan pada tahun 2001, kualitas terjemahan mesin sangat berbeda.

Untuk memberi Anda gambaran tentang perbedaan ini, saya mencoba membuat ulang sistem terjemahan mesin Prancis-Inggris dari tahun 2000-an. Untuk tujuan ini, saya melatih sistem terjemahan mesin statistik berbasis kata. Saya melakukannya dengan Musa. Saya akan menyatakan sistem ini sebagai “MT statistik (2001).”

Kemudian, saya melatih sistem terjemahan mesin saraf menggunakan model vanilla Transformer. Saya melakukannya dengan Marian (sumber terbuka, lisensi MIT). Saya akan menyatakan sistem ini sebagai “neural MT (2022).”

Terjemahan yang mereka hasilkan adalah sebagai berikut. Catatan: Saya menyorot n-gram yang cocok dengan terjemahan referensi.

Seperti yang diharapkan, terjemahan yang dihasilkan oleh MT statistik tidak masuk akal, terutama menjelang akhir kalimat. Ini mencakup lebih sedikit n-gram dari terjemahan referensi daripada MT saraf. Sebaliknya terjemahan yang dihasilkan oleh neural MT terlihat sempurna (tanpa konteks), namun tidak sama persis dengan terjemahan referensi sehingga akan dikenakan sanksi oleh BLEU.

Pada tahun 2001, sistem terjemahan mesin menghasilkan terjemahan yang sering kali tidak bermakna dan memiliki kesalahan sintaksis yang jelas. Mereka berhak dihukum karena tidak mencocokkan terjemahan referensi tertentu. Saat ini, terjemahan mesin saraf sering kali menghasilkan terjemahan yang sangat lancar, terutama untuk pasangan bahasa yang “mudah” seperti Prancis-Inggris. Mereka sering kali menemukan terjemahan yang tepat, namun karena ada banyak kemungkinan terjemahan yang benar, menemukan terjemahan tepat yang digunakan sebagai referensi hanya mungkin terjadi secara kebetulan.

Di sinilah kami mencapai batas BLEU yang hanya akan memberikan imbalan yang sama persis meskipun terjemahannya benar.

BLEU telah memandu kemajuan dalam penelitian terjemahan mesin selama bertahun-tahun. Di NAACL 2018, penulis BLEU menerima penghargaan ujian waktu.

BLEU masih digunakan di banyak bidang AI, tetapi hanya karena kebiasaan. Performanya sekarang jauh lebih baik daripada banyak metrik evaluasi lainnya untuk tugas-tugas pembuatan bahasa alami, termasuk terjemahan mesin, seperti chrF, BLEURT, atau KOMET.

Meskipun demikian, BLEU tetap a alat yang sangat bagus untuk tujuan diagnostik.

Karena BLEU mempunyai perilaku yang umum, yaitu, kita mengetahui tingkat BLEU yang diharapkan untuk tugas penerjemahan tertentu, BLEU dapat digunakan untuk dengan cepat menemukan bug dan masalah lain dalam jalur pelatihan sistem terjemahan mesin atau dalam pemrosesan datanya.

Bagaimanapun, BLEU tidak boleh digunakan pada teks pendek. Dalam praktiknya, praktisi penerjemahan mesin selalu menjalankan BLEU pada teks yang berisi lebih dari 1,000 kalimat. BLEU dimaksudkan untuk mengevaluasi terjemahan dokumen. Ini tidak boleh digunakan untuk mengevaluasi terjemahan kalimat.

Adapun implementasi BLEU banyak yang tersedia untuk umum. Hugging Face memiliki implementasi tersendiri di Evaluasi perpustakaan. NLTK juga mengimplementasikan BLEU. Ada juga multi-bleu.perl naskah dalam proyek Musa. Perhatikan bahwa semua implementasi BLEU ini berbeda dan tidak akan memberikan hasil yang sebanding. Rekomendasi pribadi saya adalah menggunakan implementasi asli SuciBLEU karena alat ini dimaksudkan untuk menjamin reproduktifitas dan komparabilitas skor BLEU.

Dan jika Anda berencana menggunakan BLEU dalam pekerjaan Anda berikutnya, jangan mengabaikan kebutuhan untuk menguji signifikansi statistik dari hasil Anda.

Cara terbaik untuk mendukung pekerjaan saya adalah dengan menjadi anggota Medium menggunakan tautan saya:

Jika Anda sudah menjadi anggota dan ingin mendukung pekerjaan ini, cukup ikuti saya di Medium.

BLEU: Metrik yang Disalahpahami dari Zaman Lain Diterbitkan Ulang dari Sumber https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 melalui https://towardsdatascience. com/umpan

<!–

Stempel Waktu: November 4, 2022November 6, 2022