BLEU: מדד לא מובן מעידן אחר

הועלה מחדש על ידי אפלטון

עוקב: 0

אבל עדיין משמש היום במחקר AI

GPT-3, Whisper, כַּף הַיָד, NLLB, פלַאן, ומודלים רבים אחרים, כולם הוערכו עם המדד BLEU כדי לטעון לעליונותם בכמה משימות.

אבל מה זה BLEU בדיוק? איך זה עובד?

במאמר זה נחזור לפני 20 שנה כדי לחשוף את הסיבות העיקריות שהביאו את BLEU לקיום והפכו אותו למדד מוצלח מאוד. נבחן כיצד BLEU עובד עם כמה דוגמאות. כמו כן, אדגיש את המגבלות העיקריות של המדד ואספק המלצות כיצד להשתמש בו.

מאמר זה נחשב כהקדמה ל-BLEU, אך יכול גם להוות תזכורת מצוינת עבור מתרגלי NLP/AI ותיקים המשתמשים ב-BLEU לפי הרגלים ולא לפי הצורך.

BLEU תואר לראשונה בדו"ח מחקר של IBM שנכתב על ידי Kishore Papineni, Salim Roukos, Todd Ward ו-Wei-Jing Zhu, בשנת 2001. הם פרסמו מאמר מדעי המתאר זאת שנה לאחר מכן ב-ACL 2002 שהוא הרבה יותר מצוטט וקל למצוא אותו.

BLEU הוצע במקור כמדד אוטומטי להערכת תרגום מכונה (MT).

בשנת 2001, מערכות תרגום מכונה עדיין הוערכו בעיקר באופן ידני, או באמצעות מדדים אוטומטיים ישנים יותר כגון WER (שיעור שגיאות מילים). WER הוא מדד בהשראת מרחק לוונשטיין ומשמש עד היום להערכת מערכות זיהוי דיבור. להערכת תרגום מכונה, ניתן לראות ב-WER אב קדמון של BLEU. מחברי BLEU מבטאים זאת באופן הבא:

אנו מעצבים את מדד הקרבה שלנו לאחר המדד המוצלח ביותר של שיעור שגיאות מילים המשמש את קהילת זיהוי הדיבור

כמו WER, BLEU הוא מדד שמודד כמה קרוב טקסט לטקסטים של התייחסות שהופקו על ידי בני אדם, למשל, תרגומי עזר.

התרגום הוא משימה עם מספר פתרונות נכונים, מחברי BLEU תכננו את המדד שלהם כך שהוא יוכל להתמודד עם תרגומי עיון מרובים. זה לא היה חדש באותה תקופה מכיוון ש-WER כבר עבר טרנספורמציה ל"mWER" כדי לטפל גם במספר הפניות. למיטב ידיעתי, זה הוצע לראשונה על ידי אלשאווי ואח'. (1998) ממעבדות AT&T.

חשוב לציין כי בכל המאמר המציג את BLEU, המחברים תמיד מניחים שימוש בתרגומי התייחסות מרובים עבור המדד שלהם. הם דנים בקצרה בשימוש בתרגום הפניה יחיד כדי להיות נכון רק בנסיבות מסוימות:

אנו עשויים להשתמש בקורפוס מבחן גדול עם תרגום ייחוס יחיד, בתנאי שלא כולם מגיעים מאותו מתרגם.

לעומת זאת, כיום, רוב מאמרי המחקר משתמשים ב-BLEU עם א התייחסות יחידה, לעתים קרובות מא מקור לא ידוע, ועבור משימות שונות, כלומר, לא רק תרגום.

מאז 2001, BLEU הוא מדד מוצלח מאוד בלשון המעטה. זה נבע בחלקו בגללו עלות חישובית זולה ו שחזור של ציוני BLEU, בניגוד להערכה אנושית שעבורה התוצאות יכולות להשתנות מאוד בהתאם למעריכים ולמסגרת ההערכה.

BLEU הוא עכשיו בשימוש בכמעט 100% ממאמרי המחקר של תרגום מכונה והתפשטה במידה רבה למשימות אחרות של יצירת שפה טבעית.

ליתר דיוק, BLEU מעריך עד כמה טוב ה-n-גרם של תרגום התאמה ל-n-גרם מתוך קבוצה של תרגומי עזר, בעוד להעניש את התרגום המכונה אם הוא קצר או ארוך יותר מאשר תרגומי ההתייחסות.

כמה הגדרות:

An n- גרם הוא רצף של אסימונים. בוא נגדיר כאן גם שא אסימון הוא רצף של תווים המופרדים באופן שרירותי על ידי רווחים. לדוגמה, המשפט "אסימון הוא לא מילה". לרוב יסומן כ"אסימון הוא לא מילה". נדון יותר על התפקיד החשוב ביותר של טוקניזציה בהמשך מאמר זה.

כדי לראות את BLEU בפעולה, שאלתי דוגמה מהעיתון BLEU של משפט בסינית (שלא מסופק על ידי המחברים) שתורגם לאנגלית. יש לנו את 2 התרגומים הבאים שנוצרו על ידי תרגום מכונה:

ושלושת תרגומי ההתייחסות הבאים שסופקו על ידי בני אדם:

השאלה שעליה אנו רוצים לענות עם BLEU היא:

איזה תרגום הוא הקרוב ביותר לתרגומי ההתייחסות הנתונים?

הדגשתי את כל ה-n-גרמים המכוסים על ידי תרגומי ההתייחסות בשני התרגומים המועמדים.

מועמד 1 מכסה הרבה יותר n-גרם מתרגומי העזר, ומכיוון שאורכו (מספר האסימונים) תואם באופן סביר גם את אורך תרגומי העזר, הוא יקבל ציון BLEU גבוה יותר ממועמד 2. כאן BLEU נכון שכן מועמד 1 הוא אכן טוב יותר ממועמד 2.

עם דוגמה זו, אנו יכולים לראות כמה מגבלות ברורות של BLEU. המשמעות של התרגום המוערך לא נלקחת בחשבון. BLEU חיפש רק התאמות מדויקות עם האסימונים של תרגומי ההפניה.

לדוגמה, "לְהַבטִיחַ" במועמד 2 אינו בתרגומי ההתייחסות, אלא "מבטיח"הוא. מאז "לְהַבטִיחַ" זה לא בדיוק כמו "מבטיח", BLEU לא מתגמל את זה למרות שיש לו משמעות קרובה.

זה יכול להיות אפילו יותר גרוע כשאנחנו מסתכלים מקרוב על סימני פיסוק. לדוגמה, מועמד 2 מסתיים ב-"." אבל תקופה זו מצורפת ל"ישיר." כדי ליצור אסימון יחיד. "ישיר.” אינו סמל לתרגומי ההתייחסות. מועמד 2 אינו מתוגמל על שהכיל נכון תקופה זו.

זו הסיבה ש-BLEU מחושב בדרך כלל על תרגומים שמסומנים לאסימונים מפוצלים המכילים סימני פיסוק. עוד נדון בו בחלק הבא.

כדי לשמור את זה פשוט, לא אדון במשוואות מאחורי BLEU. אם אתה מעוניין לחשב BLEU בעצמך, אני מזמין אותך לקרוא את המאמר של BLEU שבו כל המשוואות מונעות היטב ומוסברות.

ראינו ש-BLEU מאוד קפדני שכן אסימון צריך להיות זהה לאסימון בתרגומי ההפניה כדי להיחשב כהתאמה. זה המקום שבו טוקניזציה משחק אבל חשוב מאוד לעתים קרובות לא מובן תפקיד.

האסימון נותן קצת גמישות ל-BLEU.

לדוגמה, בואו נסתכל שוב על מועמד 2:

זה כדי להבטיח שהכוחות ישמעו לנצח את ספר הפעילות שהמפלגה תנחה.

אבל הפעם, אנו מיישמים כללי אסימון פשוטים כדי להפריד בין סימני פיסוק למילים. השגנו:

זה כדי להבטיח שהחיילים ישמעו לנצח את ספר הפעילות שהמפלגה תכוון.

שים לב ש "." הופרד מ"ישיר" לפי רווח. זה ההבדל היחיד. מועמד 2 תואם כעת אסימון אחד נוסף מתרגומי ההתייחסות. האסימון הזה הוא ".". זה לא נראה חשוב מכיוון שזהו רק אסימון אחד נוסף, אבל זה תכוף מאוד. האסימון הזה ישפיע על כמעט כל המשפטים ובכך יוביל לציוני BLEU טובים יותר באופן משמעותי.

יש כמות אינסופית של אסימונים אפשריים. לדוגמה, המשפטים הבאים בצרפתית הם תרגומים מאנגלית עליהם אני מחיל 5 אסימונים שונים. הערה: השתמשתי משה (קוד פתוח, רישיון LGPL) ו שומו שמים (קוד פתוח, Apache License 2.0).

אלו הם אותם משפטים, אך מכיוון שהם מסומנים בצורה שונה הם יתאימו לאסימונים שונים מתרגומי ההפניה. כל האסימונים הללו יניבו ציוני BLEU שונים בעוד שהתרגומים יישארו זהים.

זו הסיבה שלא ניתן להשוות שני ציוני BLEU שחושבו על תרגומים שעבורם האסימון שונה, או לא ידוע.

זהו לעתים קרובות התעלמו במאמרים מדעיים בימינו.

אתה יכול לראות את הטוקניזציה כפרמטר של BLEU. אם אתה משנה את הפרמטרים אתה משנה את המדד. לא ניתן להשוות ציונים משני מדדים שונים.

כאשר BLEU הוצע בשנת 2001, איכות התרגום המכונה הייתה שונה מאוד.

כדי לתת לכם מושג על ההבדל הזה, ניסיתי ליצור מחדש מערכת תרגום מכונה מצרפתית לאנגלית משנות ה-2000. לצורך כך הכשרתי מערכת תרגום מכונה סטטיסטית מבוססת מילים. עשיתי את זה עם משה. אציין מערכת זו "מט"ח סטטיסטי (2001)."

לאחר מכן, אימנתי מערכת תרגום מכונה עצבית באמצעות מודל וניל שנאי. עשיתי את זה עם מריאן (קוד פתוח, רישיון MIT). אציין את המערכת הזו "MT עצבי (2022)."

התרגומים שהם יוצרים הם כדלקמן. הערה: הדגשתי את ה-n-גרם התואמים לתרגום ההתייחסות.

כצפוי, התרגום שנוצר על ידי MT סטטיסטי אינו הגיוני במיוחד, במיוחד לקראת סוף המשפט. זה מכסה פחות n-גרם מתרגום הייחוס מאשר MT עצבי. מצד שני, התרגום שנוצר על ידי MT עצבי נראה מושלם (ללא הקשר), אבל זה לא בדיוק זהה לתרגום ההתייחסות ולכן הוא ייענש על ידי BLEU.

בשנת 2001, מערכות תרגום מכונה יצרו תרגומים שלעתים קרובות היו חסרי משמעות ועם שגיאות תחביר ברורות. הם נענשו בצדק על אי התאמת תרגומי עיון מסוימים. כיום, תרגום מכונה עצבית מייצר תרגומים שוטפים מאוד, במיוחד עבור צמדי שפות "קלים" כגון צרפתית-אנגלית. לעתים קרובות הם ימצאו את התרגום המתאים, אך מכיוון שיש הרבה תרגומים נכונים אפשריים, מציאת התרגום המדויק המשמש להתייחסות עשויה לקרות רק במקרה.

זה המקום שבו פגענו במגבלות של BLEU שיתגמל רק התאמות מדויקות גם כשהתרגום נכון.

BLEU הנחה את ההתקדמות במחקר תרגום מכונה במשך שנים רבות. ב-NAACL 2018, המחברים של BLEU קיבלו פרס מבחן הזמן.

BLEU עדיין משמש בתחומים רבים של AI, אבל רק על ידי הרגלים. כעת הוא מקבל ביצועים טובים יותר על ידי מדדי הערכה רבים אחרים עבור משימות יצירת שפה טבעית, כולל תרגום מכונה, כגון chrF, BLEURT, או כוכב שביט.

עם זאת, BLEU נשאר א כלי טוב מאוד למטרות אבחון.

מכיוון של-BLEU יש התנהגות ידועה, כלומר, אנו יודעים לאיזו רמה של BLEU לצפות למשימות תרגום מסוימות, ניתן להשתמש בו כדי לזהות במהירות באגים ובעיות אחרות בצנרת ההדרכה של מערכת תרגום מכונה או בעיבוד הנתונים שלה.

בכל מקרה, BLEU אין להשתמש בטקסטים קצרים. בפועל, מתרגלי תרגום מכונה תמיד מריצים BLEU על טקסטים המכילים יותר מ-1,000 משפטים. BLEU נועד להעריך תרגום מסמכים. אין להשתמש בו כדי להעריך תרגום משפטים.

באשר למימושים של BLEU, רבים מהם זמינים לציבור. ל-Huging Face יש יישום משלו ב- להעריך את הספרייה. NLTK מיישם גם BLEU. יש גם את multi-bleu.perl תסריט בפרויקט מוזס. שימו לב שכל ההטמעות הללו של BLEU שונות ולא יניבו תוצאות דומות. ההמלצה האישית שלי היא להשתמש ביישום המקורי של שומו שמים מכיוון שכלי זה נועד להבטיח את יכולת השחזור וההשוואה של ציוני BLEU.

ואם אתה מתכנן להשתמש ב-BLEU בעבודה הבאה שלך, אל תתעלם מהצורך לבדוק את המובהקות הסטטיסטית של התוצאות שלך.

הדרך הטובה ביותר לתמוך בעבודתי היא להיות חבר בינוני באמצעות הקישור שלי:

אם אתה כבר חבר ורוצה לתמוך בעבודה זו, פשוט עקוב אחריי בינוני.

BLEU: A Misunderstood Metric from Another Age פורסם מחדש ממקור https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 דרך https://towardsdatascience. com/פיד

<!–

בול זמן: 4 בנובמבר 20226 בנובמבר 2022