BLEU: ตัวชี้วัดที่เข้าใจผิดจากยุคอื่น

แต่ยังคงนำมาใช้ในการวิจัยด้าน AI จนถึงปัจจุบัน

ผนังสีฟ้า — ภาพจาก Pixabay

จีพีที-3, กระซิบ, ปาล์ม, เอ็นแอลบี, ฟลานและโมเดลอื่นๆ อีกมากมายล้วนได้รับการประเมินด้วยเมตริก BLEU เพื่ออ้างว่ามีความเหนือกว่าในบางงาน

แต่จริงๆ แล้ว BLEU คืออะไร? มันทำงานอย่างไร?

ในบทความนี้ เราจะย้อนกลับไปเมื่อ 20 ปีที่แล้วเพื่อเปิดเผยสาเหตุหลักที่ทำให้ BLEU เกิดขึ้น และทำให้เป็นตัวชี้วัดที่ประสบความสำเร็จอย่างมาก เราจะดูว่า BLEU ทำงานอย่างไรพร้อมตัวอย่างบางส่วน นอกจากนี้ ฉันจะเน้นย้ำขีดจำกัดหลักของเมตริกและให้คำแนะนำวิธีใช้งาน

บทความนี้ถือเป็นการแนะนำ BLEU แต่ก็สามารถเป็นเครื่องเตือนใจที่ดีสำหรับผู้ปฏิบัติงาน NLP/AI ที่มีประสบการณ์ซึ่งใช้ BLEU ตามนิสัยมากกว่าความจำเป็น

BLEU ได้รับการอธิบายครั้งแรกในรายงานการวิจัยของ IBM ซึ่งร่วมเขียนโดย Kishore Papineni, Salim Roukos, Todd Ward และ Wei-Jing Zhu ในปี 2001 พวกเขาตีพิมพ์ บทความทางวิทยาศาสตร์ที่อธิบายเรื่องนี้ หนึ่งปีต่อมาที่ ACL 2002 ซึ่งได้รับการอ้างอิงมากขึ้นและค้นหาได้ง่ายมากขึ้น

เดิมที BLEU ได้รับการเสนอให้เป็นหน่วยเมตริกอัตโนมัติเพื่อประเมินการแปลด้วยเครื่อง (MT)

ในปี 2001 ระบบการแปลด้วยเครื่องยังคงได้รับการประเมินด้วยตนเองเป็นหลัก หรือใช้หน่วยเมตริกอัตโนมัติแบบเก่า เช่น WER (อัตราข้อผิดพลาดของคำ). WER เป็นหน่วยเมตริกที่ได้รับแรงบันดาลใจจากระยะทางเลเวนชไทน์ และยังคงใช้อยู่ในปัจจุบันเพื่อประเมินระบบการรู้จำเสียงพูด สำหรับการประเมินการแปลด้วยเครื่อง WER ถือเป็นบรรพบุรุษของ BLEU ผู้เขียน BLEU ขอแสดงไว้ดังนี้:

เราสร้างตัวชี้วัดความใกล้ชิดของเราตามตัวชี้วัดอัตราข้อผิดพลาดของคำที่ประสบความสำเร็จอย่างสูงซึ่งใช้โดยชุมชนการรู้จำเสียง

เช่นเดียวกับ WER BLEU เป็นหน่วยเมตริกที่ใช้วัด ข้อความนั้นใกล้เคียงกับข้อความอ้างอิงที่มนุษย์สร้างขึ้นเพียงใดเช่น การแปลอ้างอิง

การแปลเป็นงานที่มีวิธีแก้ปัญหาที่ถูกต้องหลายประการ ผู้เขียน BLEU ได้ออกแบบหน่วยเมตริกของตนเพื่อให้สามารถจัดการกับการแปลอ้างอิงหลายรายการได้ นี่ไม่ใช่เรื่องใหม่ในเวลานั้นเนื่องจาก WER ได้ถูกแปลงเป็น “mWER” เพื่อจัดการข้อมูลอ้างอิงหลายรายการด้วย เท่าที่ทราบ ได้มีการเสนอครั้งแรกโดย อัลชาวี และคณะ (1998) จากเอทีแอนด์ทีแล็บส์

สิ่งสำคัญคือต้องทราบว่าในรายงานทั้งหมดที่นำเสนอ BLEU ผู้เขียนมักจะถือว่าการใช้คำแปลอ้างอิงหลายรายการสำหรับการวัดของพวกเขา พวกเขาพูดคุยสั้นๆ เกี่ยวกับการใช้คำแปลอ้างอิงฉบับเดียวเพื่อให้ถูกต้องในบางกรณีเท่านั้น:

เราอาจใช้คลังข้อมูลการทดสอบขนาดใหญ่ที่มีการแปลอ้างอิงเพียงฉบับเดียว โดยมีเงื่อนไขว่าการแปลทั้งหมดไม่ได้มาจากนักแปลคนเดียวกัน

ในทางตรงกันข้าม ปัจจุบันงานวิจัยส่วนใหญ่ใช้ BLEU กับ a การอ้างอิงเดียวมักจะมาจาก ไม่ทราบที่มาและสำหรับ งานต่างๆกล่าวคือ ไม่ใช่แค่การแปลเท่านั้น

ตั้งแต่ปี 2001 BLEU ถือเป็นตัวชี้วัดที่ประสบความสำเร็จอย่างมาก ส่วนหนึ่งเป็นเพราะเหตุนี้ ต้นทุนการคำนวณราคาถูก และ ความสามารถในการทำซ้ำของคะแนน BLEU ตรงกันข้ามกับการประเมินโดยมนุษย์ซึ่งผลลัพธ์อาจแตกต่างกันมากขึ้นอยู่กับผู้ประเมินและกรอบการประเมิน

ตอนนี้ BLEU ใช้ในงานวิจัยการแปลด้วยเครื่องเกือบ 100% และได้แพร่กระจายไปยังงานสร้างภาษาธรรมชาติอื่นๆ เป็นส่วนใหญ่

แม่นยำยิ่งขึ้น BLEU จะประเมินว่าการแปล n-gram ดีเพียงใด จับคู่ n-กรัม จากชุดคำแปลอ้างอิงในขณะที่ ลงโทษการแปลด้วยคอมพิวเตอร์หากสั้นกว่าหรือนานกว่านั้น มากกว่าคำแปลอ้างอิง

คำจำกัดความบางประการ:

An n-กรัม เป็นลำดับของโทเค็น ลองนิยามตรงนี้ด้วยว่า a โทเค็น คือลำดับของอักขระที่คั่นด้วยช่องว่างตามอำเภอใจ ตัวอย่างเช่น ประโยค “โทเค็นไม่ใช่คำ” มักจะถูกโทเค็นเป็น "โทเค็นไม่ใช่คำ" เราจะพูดคุยเพิ่มเติมเกี่ยวกับบทบาทที่สำคัญอย่างยิ่งของโทเค็นไนเซชั่นในบทความนี้

หากต้องการดูการทำงานของ BLEU ฉันยืมตัวอย่างจากรายงาน BLEU ของประโยคภาษาจีน (ผู้เขียนไม่ได้จัดทำ) แปลเป็นภาษาอังกฤษ เรามีคำแปล 2 รายการต่อไปนี้ที่สร้างโดยการแปลด้วยเครื่อง:

ภาพโดยผู้เขียน

และคำแปลอ้างอิง 3 ฉบับต่อไปนี้จัดทำโดยมนุษย์:

ภาพโดยผู้เขียน

คำถามที่เราต้องการตอบด้วย BLEU คือ:

คำแปลใดที่ใกล้เคียงกับคำแปลอ้างอิงที่ระบุมากที่สุด?

ฉันเน้น n-grams ทั้งหมดที่ครอบคลุมโดยการแปลอ้างอิงในการแปลของผู้สมัครทั้งสอง

ภาพโดยผู้เขียน

Candidate 1 ครอบคลุม n-gram จำนวนมากจากการแปลอ้างอิง และเนื่องจากความยาว (จำนวนโทเค็น) ตรงกับความยาวของการแปลอ้างอิงอย่างสมเหตุสมผล จึงได้คะแนน BLEU ที่สูงกว่า Candidate 2 ในที่นี้ BLEU ถูกต้องตั้งแต่ Candidate 1 ดีกว่าผู้สมัคร 2 แน่นอน

จากตัวอย่างนี้ เราจะเห็นขีดจำกัดที่ชัดเจนของ BLEU ไม่พิจารณาความหมายของการแปลที่ได้รับการประเมิน BLEU ค้นหาเฉพาะรายการที่ตรงกันทุกประการกับโทเค็นของการแปลอ้างอิงเท่านั้น

ตัวอย่างเช่น“ทำให้มั่นใจ” ใน Candidate 2 ไม่ได้อยู่ในคำแปลอ้างอิง แต่ “เพื่อให้แน่ใจ" เป็น. เนื่องจาก "ทำให้มั่นใจ” ไม่เหมือนกับ “เพื่อให้แน่ใจ” BLEU ไม่ให้รางวัลแม้จะมีความหมายใกล้เคียงก็ตาม

อาจแย่ยิ่งกว่านั้นอีกเมื่อเราดูเครื่องหมายวรรคตอนอย่างใกล้ชิด ตัวอย่างเช่น ผู้สมัครหมายเลข 2 ลงท้ายด้วย “.” แต่งวดนี้แนบมากับ “โดยตรง.” เพื่อสร้างโทเค็นเดียว “โดยตรง.” ไม่ใช่สัญลักษณ์ของการแปลอ้างอิง ผู้สมัครหมายเลข 2 จะไม่ได้รับรางวัลหากมีช่วงเวลานี้อย่างถูกต้อง

นี่คือเหตุผลว่าทำไม BLEU จึงมักคำนวณจากการแปลที่โทเค็นเป็นโทเค็นแยกที่มีเครื่องหมายวรรคตอน เราจะหารือเพิ่มเติมในหัวข้อถัดไป

เพื่อให้ง่าย ฉันจะไม่พูดถึงสมการเบื้องหลัง BLEU หากคุณสนใจที่จะคำนวณ BLEU ด้วยตัวเอง ฉันขอเชิญคุณอ่านบทความ BLEU ซึ่งสมการทั้งหมดมีแรงจูงใจและอธิบายอย่างดี

เราเห็นว่า BLEU นั้นเข้มงวดมาก เนื่องจากโทเค็นควรเหมือนกันกับโทเค็นในการแปลอ้างอิงจึงจะนับเป็นรายการที่ตรงกัน นี่คือจุดที่โทเค็นไนซ์มีบทบาทสำคัญมาก มักเข้าใจผิด บทบาท

โทเค็นไนซ์ให้บางอย่าง ความยืดหยุ่น ถึง BLEU

ตัวอย่างเช่น ลองดูที่ Candidate 2 อีกครั้ง:

เพื่อให้แน่ใจว่ากองทหารจะได้ยินคู่มือกิจกรรมที่ฝ่ายนั้นสั่งการตลอดไป

แต่คราวนี้ เราใช้กฎโทเค็นง่ายๆ เพื่อแยกเครื่องหมายวรรคตอนออกจากคำ เราได้รับ:

เพื่อให้แน่ใจว่ากองทหารจะได้ยินคู่มือกิจกรรมที่ฝ่ายนั้นสั่งการตลอดไป

สังเกตว่า “.” ได้แยกออกจาก “โดยตรง” โดยช่องว่าง นี่คือความแตกต่างเพียงอย่างเดียว ขณะนี้ผู้สมัคร 2 จับคู่โทเค็นอีกหนึ่งรายการจากการแปลอ้างอิง โทเค็นนี้คือ “.". ดูเหมือนจะไม่สำคัญเนื่องจากนี่เป็นเพียงโทเค็นอีกหนึ่งโทเค็นเท่านั้น แต่นี่เป็นโทเค็นที่บ่อยมาก โทเค็นไลเซชันนี้จะมีผลกระทบต่อประโยคเกือบทั้งหมด และทำให้คะแนน BLEU ดีขึ้นอย่างมาก

มีโทเค็นไนซ์ที่เป็นไปได้จำนวนอนันต์ ตัวอย่างเช่น ประโยคภาษาฝรั่งเศสต่อไปนี้เป็นคำแปลจากภาษาอังกฤษ ซึ่งฉันใช้โทเค็นไนเซอร์ที่แตกต่างกัน 5 แบบ หมายเหตุ: ฉันใช้ โมเสส (โอเพ่นซอร์ส, ใบอนุญาต LGPL) และ สิ่งศักดิ์สิทธิ์ (โอเพ่นซอร์ส, ใบอนุญาต Apache 2.0).

ภาพโดยผู้เขียน

นี่เป็นประโยคเดียวกัน แต่เนื่องจากโทเค็นต่างกัน โทเค็นจึงจับคู่โทเค็นที่แตกต่างจากการแปลอ้างอิง โทเค็นทั้งหมดเหล่านี้จะให้คะแนน BLEU ที่แตกต่างกันในขณะที่การแปลยังคงเหมือนเดิม

นี่คือเหตุผลว่าทำไมจึงไม่สามารถเปรียบเทียบคะแนน BLEU สองคะแนนที่คำนวณจากการแปลซึ่งโทเค็นไนเซชันแตกต่างหรือไม่ทราบได้

นี่คือ มักถูกมองข้าม ในเอกสารทางวิทยาศาสตร์ในปัจจุบัน

คุณสามารถเห็นโทเค็นไนซ์เป็นพารามิเตอร์ของ BLEU หากคุณเปลี่ยนพารามิเตอร์ คุณจะเปลี่ยนเมตริก ไม่สามารถเปรียบเทียบคะแนนจากสองเมตริกที่แตกต่างกันได้

เมื่อมีการเสนอ BLEU ในปี 2001 คุณภาพของการแปลด้วยเครื่องแตกต่างอย่างมาก

เพื่อให้คุณเข้าใจถึงความแตกต่างนี้ ฉันพยายามสร้างระบบการแปลภาษาฝรั่งเศสเป็นภาษาอังกฤษจากช่วงปี 2000 ขึ้นมาใหม่ เพื่อจุดประสงค์นี้ ฉันจึงได้ฝึกอบรมระบบการแปลด้วยเครื่องทางสถิติโดยใช้คำ ฉันทำมันด้วย โมเสส. ฉันจะแสดงถึงระบบนี้ “สถิติ MT (2001)”

จากนั้น ฉันฝึกระบบการแปลด้วยเครื่องนิวรัลโดยใช้โมเดล vanilla Transformer ฉันทำมันด้วย แมเรียน (โอเพ่นซอร์ส, ใบอนุญาต MIT) ฉันจะแสดงถึงระบบนี้ “neural MT (2022)”

คำแปลที่พวกเขาสร้างขึ้นมีดังนี้ หมายเหตุ: ฉันเน้น n-grams ที่ตรงกับการแปลอ้างอิง

ภาพโดยผู้เขียน

ตามที่คาดไว้ การแปลที่สร้างโดย MT ทางสถิตินั้นไม่สมเหตุสมผลนัก โดยเฉพาะในช่วงท้ายประโยค ครอบคลุม n-gram จากการแปลอ้างอิงน้อยกว่า MT แบบนิวรัล ในทางกลับกัน การแปลที่สร้างโดย Neural MT ดูสมบูรณ์แบบ (โดยไม่มีบริบท) แต่ก็ไม่เหมือนกับการแปลอ้างอิงทุกประการ ดังนั้น BLEU จะถูกลงโทษ

ในปี 2001 ระบบการแปลด้วยคอมพิวเตอร์ได้สร้างการแปลที่มักไม่มีความหมายและมีข้อผิดพลาดทางวากยสัมพันธ์ที่ชัดเจน พวกเขาถูกลงโทษอย่างถูกต้องเนื่องจากไม่ตรงกับคำแปลอ้างอิงโดยเฉพาะ ในปัจจุบัน การแปลด้วยเครื่องนิวรัลมักสร้างการแปลได้คล่องมาก โดยเฉพาะคู่ภาษาที่ "ง่าย" เช่น ฝรั่งเศส-อังกฤษ พวกเขามักจะพบคำแปลที่ถูกต้อง แต่เนื่องจากมีคำแปลที่ถูกต้องที่เป็นไปได้มากมาย การค้นหาคำแปลที่ใช้เป็นข้อมูลอ้างอิงจึงอาจเกิดขึ้นโดยบังเอิญเท่านั้น

นี่คือจุดที่เราใช้ถึงขีดจำกัดของ BLEU ที่จะให้รางวัลเฉพาะการจับคู่ที่ตรงทั้งหมด แม้ว่าการแปลจะถูกต้องก็ตาม

BLEU ได้ชี้แนะความก้าวหน้าในการวิจัยการแปลด้วยเครื่องมาเป็นเวลาหลายปี ที่ NAACL 2018 ผู้เขียน BLEU ได้รับ รางวัลการทดสอบเวลา.

BLEU ยังคงใช้อยู่ในหลายๆ ด้านของ AI แต่จะใช้เฉพาะตามนิสัยเท่านั้น ขณะนี้มีประสิทธิภาพเหนือกว่าตัวชี้วัดการประเมินอื่นๆ มากมายสำหรับงานสร้างภาษาธรรมชาติ รวมถึงการแปลด้วยเครื่อง เช่น chF, เบลอร์ต,หรือ ดาวหาง.

อย่างไรก็ตาม BLEU ยังคงเป็น เครื่องมือที่ดีมากสำหรับวัตถุประสงค์ในการวินิจฉัย.

เนื่องจาก BLEU มีพฤติกรรมที่รู้จักกันดี กล่าวคือ เรารู้ว่า BLEU ระดับใดที่คาดหวังสำหรับงานแปลโดยเฉพาะ จึงสามารถใช้เพื่อระบุจุดบกพร่องและปัญหาอื่นๆ ได้อย่างรวดเร็วในไปป์ไลน์การฝึกอบรมของระบบการแปลด้วยเครื่องหรือในการประมวลผลข้อมูล

ในกรณีใดๆ BLEU ไม่ควรใช้กับข้อความสั้น ๆ. ในทางปฏิบัติ ผู้ปฏิบัติงานการแปลด้วยเครื่องมักจะเรียกใช้ BLEU กับข้อความที่มีมากกว่า 1,000 ประโยค BLEU มีวัตถุประสงค์เพื่อประเมินการแปลเอกสาร ไม่ควรใช้ประเมินการแปลประโยค

สำหรับการนำไปปฏิบัติของ BLEU นั้นมีการเปิดเผยต่อสาธารณะหลายประการ Hugging Face มีการใช้งานของตัวเองใน ประเมินห้องสมุด. เอ็นแอลทีเค ยังใช้ BLEU อีกด้วย นอกจากนี้ยังมี multi-bleu.perl สคริปต์ในโครงการโมเสส โปรดทราบว่าการใช้งาน BLEU ทั้งหมดนี้แตกต่างกันและไม่สามารถให้ผลลัพธ์ที่เทียบเคียงได้ คำแนะนำส่วนตัวของฉันคือการใช้การดำเนินการดั้งเดิมของ สิ่งศักดิ์สิทธิ์ เนื่องจากเครื่องมือนี้มีไว้เพื่อรับประกันความสามารถในการทำซ้ำและการเปรียบเทียบคะแนน BLEU

และหากคุณวางแผนที่จะใช้ BLEU ในการทำงานครั้งต่อไป อย่ามองข้ามความจำเป็นในการทดสอบนัยสำคัญทางสถิติของผลลัพธ์ของคุณ

วิธีที่ดีที่สุดในการสนับสนุนงานของฉันคือการเป็นสมาชิกขนาดกลางโดยใช้ลิงก์ของฉัน:

หากคุณเป็นสมาชิกอยู่แล้วและต้องการสนับสนุนงานนี้เพียง ติดตามฉันบนสื่อ.

BLEU: ตัวชี้วัดที่เข้าใจผิดจากยุคอื่น เผยแพร่ซ้ำจากแหล่งที่มา https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 ผ่าน https://towardsdatascience คอม/ฟีด

<!–

->

ประทับเวลา:

เพิ่มเติมจาก ที่ปรึกษาบล็อคเชน