BLEU: مقياس يساء فهمه من عصر آخر

أعاد نشره أفلاطون

المتابعون: 0

ولكن لا يزال يستخدم حتى اليوم في أبحاث الذكاء الاصطناعي

GPT-3, همس, كف، نخلة, NLLB, فلانوالعديد من النماذج الأخرى تم تقييمها جميعًا باستخدام المتري BLEU للمطالبة بتفوقها في بعض المهام.

ولكن ما هو BLEU بالضبط؟ كيف يعمل؟

في هذه المقالة، سنعود إلى 20 عامًا مضت لكشف الأسباب الرئيسية التي أدت إلى ظهور BLEU وجعلته مقياسًا ناجحًا للغاية. سننظر في كيفية عمل BLEU مع بعض الأمثلة. وسأسلط الضوء أيضًا على الحدود الرئيسية للمقياس وأقدم توصيات حول كيفية استخدامه.

يُنظر إلى هذه المقالة على أنها مقدمة لـ BLEU، ولكنها يمكن أن تكون أيضًا بمثابة تذكير رائع لممارسي البرمجة اللغوية العصبية/الذكاء الاصطناعي المتمرسين الذين يستخدمون BLEU حسب العادات وليس الحاجة.

تم وصف BLEU لأول مرة في تقرير بحثي لشركة IBM شارك في تأليفه كيشور بابينيني، وسالم روكوس، وتود وارد، ووي جينغ تشو، في عام 2001. وقد نشروا تقريرًا ورقة علمية تصف ذلك بعد عام واحد في ACL 2002 والذي تم الاستشهاد به كثيرًا ويسهل العثور عليه.

تم اقتراح BLEU في الأصل كمقياس تلقائي لتقييم الترجمة الآلية (MT).

في عام 2001، كان لا يزال يتم تقييم أنظمة الترجمة الآلية بشكل أساسي يدويًا، أو باستخدام مقاييس آلية قديمة مثل WER (معدل خطأ الكلمة). WER هو مقياس مستوحى من مسافة Levenshtein ولا يزال يستخدم حتى اليوم لتقييم أنظمة التعرف على الكلام. بالنسبة لتقييم الترجمة الآلية، يمكن اعتبار WER بمثابة سلف لـ BLEU. يعبر مؤلفو BLEU عن ذلك على النحو التالي:

لقد قمنا بتصميم مقياس التقارب الخاص بنا وفقًا لمقياس معدل خطأ الكلمات الناجح للغاية والذي يستخدمه مجتمع التعرف على الكلام

مثل WER، يعد BLEU مقياسًا للقياس مدى قرب النص من النصوص المرجعية التي أنتجها البشرعلى سبيل المثال، الترجمات المرجعية.

نظرًا لكون الترجمة مهمة ذات حلول صحيحة متعددة، فقد صمم مؤلفو BLEU مقياسهم بحيث يمكنه التعامل مع ترجمات مرجعية متعددة. لم يكن هذا جديدًا في ذلك الوقت حيث تم تحويل WER بالفعل إلى "mWER" للتعامل أيضًا مع مراجع متعددة. على حد علمي، تم اقتراحه لأول مرة من قبل الشاوي وآخرون. (1998) من مختبرات AT&T.

من المهم ملاحظة أنه، في الورقة بأكملها التي تقدم BLEU، يفترض المؤلفون دائمًا استخدام ترجمات مرجعية متعددة لمقياسهم. يناقشون بإيجاز استخدام ترجمة مرجعية واحدة لتكون صحيحة في بعض الظروف فقط:

قد نستخدم مجموعة اختبارية كبيرة مع ترجمة مرجعية واحدة، بشرط ألا تكون الترجمات كلها من نفس المترجم.

في المقابل، في الوقت الحاضر، تستخدم معظم الأوراق البحثية BLEU مع مرجع واحد، في كثير من الأحيان من أصل غير معروفولل المهام المختلفة، أي ليس الترجمة فقط.

منذ عام 2001، أصبح BLEU مقياسًا ناجحًا جدًا على أقل تقدير. وكان هذا يرجع جزئيا إلى ذلك تكلفة حسابية رخيصة و استنساخ عشرات BLEU، على عكس التقييم البشري الذي يمكن أن تختلف نتائجه كثيرًا اعتمادًا على المقيمين وإطار التقييم.

بلو الآن تُستخدم في ما يقرب من 100% من أوراق أبحاث الترجمة الآلية وانتشرت إلى حد كبير إلى مهام توليد اللغة الطبيعية الأخرى.

بتعبير أدق، يقوم BLEU بتقييم مدى جودة عدد n-gram للترجمة مطابقة n-جرام من مجموعة من الترجمات المرجعية، بينما معاقبة الترجمة الآلية إذا كانت أقصر أو أطول من الترجمات المرجعية.

بعض التعاريف:

An ن-غرام عبارة عن سلسلة من الرموز. دعونا نحدد هنا أيضًا أن أ رمز عبارة عن سلسلة من الأحرف المحددة بشكل تعسفي بمسافات. على سبيل المثال، الجملة "الرمز المميز ليس كلمة". غالبًا ما يتم ترميزه على أنه "الرمز المميز ليس كلمة". سنناقش المزيد حول الدور المهم للغاية للترميز لاحقًا في هذه المقالة.

لرؤية BLEU عمليًا، قمت باستعارة مثال من ورقة BLEU لجملة باللغة الصينية (لم يقدمها المؤلفون) مترجمة إلى الإنجليزية. لدينا الترجمتان التاليتان اللتان تم إنشاؤهما بواسطة الترجمة الآلية:

والترجمات المرجعية الثلاثة التالية مقدمة من البشر:

السؤال الذي نريد الإجابة عليه مع BLEU هو:

ما هي الترجمة الأقرب إلى الترجمات المرجعية المحددة؟

لقد قمت بتسليط الضوء على جميع N-grams التي تغطيها الترجمات المرجعية في كلا الترجمتين المرشحتين.

يغطي المرشح 1 عددًا أكبر بكثير من n-grams من الترجمات المرجعية، وبما أن طوله (عدد الرموز المميزة) يتطابق أيضًا بشكل معقول مع طول الترجمات المرجعية، فسوف يحصل على درجة BLEU أعلى من المرشح 2. هنا يكون BLEU صحيحًا منذ المرشح 1 هو في الواقع أفضل من المرشح 2.

مع هذا المثال، يمكننا أن نرى بعض الحدود الواضحة لـ BLEU. لا يؤخذ في الاعتبار معنى الترجمة التي تم تقييمها. بحثت BLEU فقط عن التطابقات التامة مع الرموز المميزة للترجمات المرجعية.

على سبيل المثال، "ضمان"في المرشح 2 ليس في الترجمات المرجعية، ولكن"يضمن" يكون. منذ "ضمان"ليس بالضبط نفس"يضمن"، BLEU لا يكافئها على الرغم من كونها ذات معنى قريب.

ويمكن أن يكون الأمر أسوأ عندما ننظر عن كثب إلى علامات الترقيم. على سبيل المثال، المرشح 2 ينتهي بـ "."ولكن هذه الفترة مرتبطة ب"مباشرة."لتكوين رمز واحد. "مباشرة."ليس رمزًا للترجمات المرجعية. لا تتم مكافأة المرشح 2 لاحتوائه هذه الفترة بشكل صحيح.

ولهذا السبب يتم حساب BLEU عادةً على الترجمات التي تم ترميزها لتقسيم الرموز المميزة التي تحتوي على علامات الترقيم. وسوف نناقش ذلك بشكل أكبر في القسم التالي.

لتبسيط الأمر، لن أناقش المعادلات الكامنة وراء BLEU. إذا كنت مهتمًا بحساب BLEU بنفسك، فأنا أدعوك لقراءة ورقة BLEU حيث تكون جميع المعادلات محفزة وموضحة بشكل جيد.

لقد رأينا أن BLEU صارم جدًا نظرًا لأن الرمز المميز يجب أن يكون مطابقًا للرمز المميز في الترجمات المرجعية ليتم احتسابه كمطابقة. هذا هو المكان الذي يلعب فيه الرمز المميز دورًا مهمًا للغاية كثيرا ما يساء فهمه دور.

يعطي الرمز المميز بعضًا مرونة إلى بلو.

على سبيل المثال، دعونا ننظر مرة أخرى إلى المرشح 2:

إنه ضمان سماع القوات إلى الأبد لدليل النشاط الذي يوجهه الطرف.

لكن هذه المرة، قمنا بتطبيق قواعد ترميزية بسيطة لفصل علامات الترقيم عن الكلمات. نحصل:

إنه ضمان سماع القوات إلى الأبد لدليل النشاط الذي يوجهه الطرف.

لاحظ أن ".""تم فصله عن""مباشرة"بمسافة. هذا هو الفرق الوحيد. يطابق المرشح 2 الآن رمزًا مميزًا آخر من الترجمات المرجعية. هذا الرمز هو ".". لا يبدو الأمر مهمًا نظرًا لأن هذا مجرد رمز مميز آخر، ولكنه رمز متكرر جدًا. سيكون لهذا الترميز تأثير على جميع الجمل تقريبًا، وبالتالي يؤدي إلى نتائج أفضل بشكل ملحوظ في BLEU.

هناك عدد لا حصر له من الرموز المميزة الممكنة. على سبيل المثال، الجمل الفرنسية التالية هي ترجمات من الإنجليزية والتي أستخدم عليها 5 رموز مميزة. ملاحظة: اعتدت موسى (مفتوح المصدر، ترخيص LGPL) و ساكريبليو (مفتوح المصدر، ترخيص أباتشي 2.0).

هذه هي نفس الجمل، ولكن نظرًا لأنه تم ترميزها بشكل مختلف، فإنها ستطابق رموزًا مختلفة من الترجمات المرجعية. ستنتج كل هذه الرموز المميزة درجات BLEU مختلفة بينما تظل الترجمات كما هي.

ولهذا السبب لا يمكن مقارنة درجات BLEU المحسوبة على الترجمات التي يختلف رمزها المميز أو غير المعروف.

هذا هو غالبًا ما يتم تجاهله في الأوراق العلمية في الوقت الحاضر.

يمكنك رؤية الرمز المميز كمعلمة لـ BLEU. إذا قمت بتغيير المعلمات فإنك تغير المقياس. لا يمكن مقارنة النتائج من مقياسين مختلفين.

عندما تم اقتراح BLEU في عام 2001، كانت جودة الترجمة الآلية مختلفة تمامًا.

لإعطائك فكرة عن هذا الاختلاف، حاولت إعادة إنشاء نظام ترجمة آلية من الفرنسية إلى الإنجليزية كان موجودًا في العقد الأول من القرن الحادي والعشرين. ولهذا الغرض، قمت بتدريب نظام ترجمة آلي إحصائي قائم على الكلمات. فعلت ذلك مع موسى. وسأشير إلى هذا النظام بـ "إحصائيات MT (2001)."

بعد ذلك، قمت بتدريب نظام ترجمة آلي عصبي باستخدام نموذج Vanilla Transformer. فعلت ذلك مع ماريان (مفتوح المصدر، ترخيص معهد ماساتشوستس للتكنولوجيا). وسأشير إلى هذا النظام بـ "MT العصبي (2022)."

الترجمات التي يولدونها هي كما يلي. ملحوظة: لقد قمت بتسليط الضوء على n-grams المطابقة للترجمة المرجعية.

كما هو متوقع، فإن الترجمة الناتجة عن الترجمة الآلية الإحصائية ليست منطقية كثيرًا، خاصة في نهاية الجملة. ويغطي عددًا أقل من الجرام من الترجمة المرجعية مقارنة بالترجمة الآلية العصبية. من ناحية أخرى، تبدو الترجمة التي تم إنشاؤها بواسطة الترجمة الآلية العصبية مثالية (بدون سياق)، ولكنها ليست تمامًا مثل الترجمة المرجعية، لذا سيتم معاقبتها بواسطة BLEU.

في عام 2001، أنتجت أنظمة الترجمة الآلية ترجمات غالبًا ما كانت بلا معنى وبها أخطاء نحوية واضحة. وقد تمت معاقبتهم بحق لعدم مطابقتهم لترجمات مرجعية معينة. في الوقت الحاضر، غالبًا ما تولد الترجمة الآلية العصبية ترجمات بطلاقة جدًا، خاصة للأزواج اللغوية "السهلة" مثل الفرنسية والإنجليزية. غالبًا ما يجدون الترجمة الصحيحة، ولكن نظرًا لوجود العديد من الترجمات الصحيحة المحتملة، فإن العثور على الترجمة الدقيقة المستخدمة كمرجع قد لا يحدث إلا عن طريق الصدفة.

هذا هو المكان الذي وصلنا فيه إلى حدود BLEU التي ستكافئ المطابقات التامة فقط حتى عندما تكون الترجمة صحيحة.

لقد قادت BLEU التقدم في أبحاث الترجمة الآلية لسنوات عديدة. في NAACL 2018، تلقى مؤلفو BLEU جائزة اختبار الزمن.

لا يزال يُستخدم BLEU في العديد من مجالات الذكاء الاصطناعي، ولكن من خلال العادات فقط. ويتفوق عليها الآن إلى حد كبير العديد من مقاييس التقييم الأخرى لمهام إنشاء اللغة الطبيعية، بما في ذلك الترجمة الآلية، مثل مركز حقوق الإنسان, بليورتالطرق أو COMET.

ومع ذلك، يظل BLEU بمثابة أداة جيدة جدًا لأغراض التشخيص.

نظرًا لأن BLEU لديه سلوك معروف جيدًا، أي أننا نعرف مستوى BLEU المتوقع لمهام ترجمة معينة، فيمكن استخدامه لاكتشاف الأخطاء والمشكلات الأخرى بسرعة في مسار التدريب لنظام الترجمة الآلية أو في معالجة البيانات الخاصة به.

في أي حال، بلو لا ينبغي أن تستخدم في النصوص القصيرة. من الناحية العملية، يقوم ممارسو الترجمة الآلية دائمًا بتشغيل BLEU على النصوص التي تحتوي على أكثر من 1,000 جملة. يهدف BLEU إلى تقييم ترجمة المستندات. ولا ينبغي استخدامه لتقييم ترجمة الجملة.

أما بالنسبة لتطبيقات BLEU، فالعديد منها متاح للعامة. Hugging Face له تطبيقه الخاص في تقييم المكتبة. نلتك ينفذ أيضًا BLEU. وهناك أيضا متعدد bleu.بيرل السيناريو في مشروع موسى. لاحظ أن جميع تطبيقات BLEU مختلفة ولن تسفر عن نتائج قابلة للمقارنة. توصيتي الشخصية هي استخدام التنفيذ الأصلي لـ ساكريبليو نظرًا لأن المقصود من هذه الأداة هو ضمان إمكانية تكرار نتائج نتائج BLEU ومقارنتها.

وإذا كنت تخطط لاستخدام BLEU في عملك التالي، فلا تتجاهل الحاجة إلى اختبار الأهمية الإحصائية لنتائجك.

أفضل طريقة لدعم عملي هي أن تصبح عضوًا متوسطًا باستخدام الرابط الخاص بي:

إذا كنت عضوا بالفعل وترغب في دعم هذا العمل، فقط اتبعني على متوسط.

BLEU: مقياس يساء فهمه من عصر آخر أعيد نشره من المصدر https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 عبر https://towardsdatascience. كوم/تغذية

<!–

الطابع الزمني: 4 نوفمبر، 20226 نوفمبر، 2022