BLEU: معیاری که درک نادرست از عصر دیگری وجود دارد

اما امروزه هنوز در تحقیقات هوش مصنوعی استفاده می شود

یک دیوار آبی - تصویر از Pixabay

GPT-3, نجوا, نخل, NLLB, کیک میوهو بسیاری از مدل‌های دیگر همگی با متریک BLEU ارزیابی شده‌اند تا برتری خود را در برخی کارها ادعا کنند.

اما BLEU دقیقا چیست؟ چگونه کار می کند؟

در این مقاله، ما به ۲۰ سال پیش برمی‌گردیم تا دلایل اصلی که BLEU را به وجود آورد و آن را به یک معیار بسیار موفق تبدیل کرد، آشکار کنیم. ما با چند مثال به نحوه عملکرد BLEU خواهیم پرداخت. من همچنین محدودیت های اصلی متریک را برجسته می کنم و توصیه هایی در مورد نحوه استفاده از آن ارائه می کنم.

این مقاله به‌عنوان مقدمه‌ای برای BLEU در نظر گرفته می‌شود، اما همچنین می‌تواند یادآوری عالی برای تمرین‌کنندگان باتجربه NLP/AI باشد که از BLEU بر اساس عادات و نه نیاز استفاده می‌کنند.

BLEU برای اولین بار در یک گزارش تحقیقاتی IBM که توسط کیشور پاپیننی، سلیم روکوس، تاد وارد و وی جینگ ژو در سال 2001 نوشته شده بود، توصیف شد. مقاله علمی در توصیف آن یک سال بعد در ACL 2002 که بسیار بیشتر استناد شده و یافتن آن آسان است.

BLEU در ابتدا به عنوان یک متریک خودکار برای ارزیابی ترجمه ماشینی (MT) پیشنهاد شد.

در سال 2001، سیستم‌های ترجمه ماشینی هنوز عمدتاً به صورت دستی یا با استفاده از معیارهای خودکار قدیمی‌تر مانند WER ارزیابی می‌شدند.میزان خطای کلمه). WER یک متریک الهام گرفته شده از فاصله Levenshtein است و امروزه هنوز برای ارزیابی سیستم های تشخیص گفتار استفاده می شود. برای ارزیابی ترجمه ماشینی، WER را می توان به عنوان اجداد BLEU در نظر گرفت. نویسندگان BLEU آن را به شرح زیر بیان می کنند:

ما معیار نزدیکی خود را بر اساس معیار بسیار موفق نرخ خطای کلمه مورد استفاده توسط انجمن تشخیص گفتار طراحی می کنیم

مانند WER، BLEU معیاری است که اندازه گیری می کند چقدر یک متن به متون مرجع تولید شده توسط انسان نزدیک استبه عنوان مثال، ترجمه های مرجع.

ترجمه یک کار با چندین راه حل صحیح است، نویسندگان BLEU معیار خود را طوری طراحی کردند که بتواند چندین ترجمه مرجع را مدیریت کند. این در آن زمان جدید نبود زیرا WER قبلاً به یک "mWER" تبدیل شده بود تا چندین مرجع را نیز مدیریت کند. تا جایی که من می دانم، اولین بار توسط آن پیشنهاد شده است الشاوی و همکاران (1998) از آزمایشگاه AT&T.

توجه به این نکته مهم است که در کل مقاله ارائه‌شده BLEU، نویسندگان همیشه استفاده از ترجمه‌های مرجع متعدد را برای معیارهای خود فرض می‌کنند. آنها به طور مختصر در مورد استفاده از یک ترجمه مرجع برای صحیح بودن تنها در برخی شرایط بحث می کنند:

ممکن است از یک مجموعه آزمایشی بزرگ با یک ترجمه مرجع استفاده کنیم، مشروط بر اینکه ترجمه ها همه از یک مترجم نباشند.

در مقابل، امروزه بیشتر مقالات تحقیقاتی از BLEU با a استفاده می کنند مرجع واحد، اغلب از یک منشا ناشناخته، و برای وظایف مختلفیعنی نه تنها ترجمه.

از سال 2001، BLEU حداقل یک معیار بسیار موفق بوده است. این تا حدودی به دلیل آن بود هزینه محاسباتی ارزان و تکرارپذیری نمرات BLEU، بر خلاف ارزیابی انسانی که نتایج آن بسته به ارزیابان و چارچوب ارزیابی می تواند بسیار متفاوت باشد.

BLEU اکنون است تقریباً در 100٪ از مقالات تحقیقاتی ترجمه ماشینی استفاده می شود و تا حد زیادی به سایر وظایف تولید زبان طبیعی گسترش یافته است.

به طور دقیق تر، BLEU میزان خوب بودن n-گرم ترجمه را ارزیابی می کند مطابقت با n گرم از مجموعه ای از ترجمه های مرجع، در حالی که جریمه کردن ترجمه ماشینی اگر کوتاهتر یا طولانی تر باشد نسبت به ترجمه های مرجع

برخی از تعاریف:

An n-گرم دنباله ای از نشانه ها است. اجازه دهید در اینجا نیز تعریف کنیم که الف رمز دنباله ای از کاراکترها است که به طور دلخواه با فاصله مشخص شده اند. به عنوان مثال، جمله "یک نشانه یک کلمه نیست." اغلب به عنوان "یک نشانه یک کلمه نیست." در ادامه این مقاله در مورد نقش بسیار مهم توکن سازی بیشتر بحث خواهیم کرد.

برای مشاهده عمل BLEU، یک مثال از مقاله BLEU یک جمله به زبان چینی (که توسط نویسندگان ارائه نشده است) که به انگلیسی ترجمه شده است، قرض گرفتم. ما این 2 ترجمه زیر را داریم که توسط ترجمه ماشینی ایجاد شده اند:

تصویر توسط نویسنده

و 3 ترجمه مرجع زیر که توسط انسان ارائه شده است:

تصویر توسط نویسنده

سوالی که می خواهیم با BLEU به آن پاسخ دهیم این است:

کدام ترجمه به ترجمه های مرجع داده شده نزدیکتر است؟

من تمام n-gram هایی را که توسط ترجمه های مرجع در هر دو ترجمه کاندید پوشش داده شده اند برجسته کردم.

تصویر توسط نویسنده

کاندید 1 n-گرم بیشتری را از ترجمه های مرجع پوشش می دهد، و از آنجایی که طول آن (تعداد نشانه ها) نیز به طور منطقی با طول ترجمه های مرجع مطابقت دارد، امتیاز BLEU بالاتری نسبت به کاندید 2 دریافت می کند. در اینجا BLEU از کاندید 1 صحیح است. در واقع بهتر از کاندید 2 است.

با این مثال، می‌توانیم محدودیت‌های آشکار BLEU را ببینیم. معنای ترجمه ارزیابی شده در نظر گرفته نشده است. BLEU فقط برای مطابقت دقیق با نشانه های ترجمه های مرجع جستجو کرد.

برای مثال، "اطمینان حاصل شود” در Candidate 2 در ترجمه های مرجع نیست، اما ”تضمین می کند" است. از آنجا که "اطمینان حاصل شود” دقیقا مشابه ” نیستتضمین می کندBLEU علیرغم داشتن معنای نزدیک به آن پاداش نمی دهد.

وقتی از نزدیک به علائم نگارشی نگاه می کنیم، می تواند حتی بدتر شود. به عنوان مثال، کاندید 2 با یک " پایان می یابد." اما این دوره به "مستقیم.” برای تشکیل یک نشانه واحد. "مستقیم.” نشانه ای از ترجمه های مرجع نیست. به کاندید 2 به دلیل اینکه این دوره را به درستی درج کرده است، پاداشی دریافت نمی شود.

به همین دلیل است که BLEU معمولاً بر روی ترجمه‌هایی محاسبه می‌شود که برای تقسیم نشانه‌های حاوی علامت‌های نقطه‌گذاری توکنیزه می‌شوند. در بخش بعدی بیشتر به آن خواهیم پرداخت.

برای ساده نگه داشتن آن، من در مورد معادلات BLEU بحث نمی کنم. اگر علاقه دارید BLEU را خودتان محاسبه کنید، از شما دعوت می کنم مقاله BLEU را بخوانید که در آن تمام معادلات به خوبی انگیزه و توضیح داده شده است.

ما دیدیم که BLEU بسیار سختگیرانه است زیرا یک نشانه باید با یک نشانه در ترجمه های مرجع یکسان باشد تا به عنوان یک تطابق محاسبه شود. اینجاست که توکنیزاسیون نقش بسیار مهمی دارد اغلب سوء تفاهم می شود نقش.

نشانه گذاری مقداری می دهد انعطاف پذیری به BLEU.

برای مثال بیایید دوباره به Candidate 2 نگاه کنیم:

این است که اطمینان حاصل شود که سربازان برای همیشه کتاب راهنمای فعالیت آن حزب را می شنوند.

اما این بار، قوانین نشانه گذاری ساده را برای جدا کردن علائم نگارشی از کلمات اعمال می کنیم. ما بدست می آوریم:

این است که اطمینان حاصل شود که سربازان برای همیشه کتاب راهنمای فعالیت آن حزب را می شنوند.

توجه داشته باشید که "."از" جدا شده استمستقیم” توسط یک فاصله. این تنها تفاوت است. کاندید 2 اکنون با یک نشانه دیگر از ترجمه های مرجع مطابقت دارد. این نشانه ".". مهم به نظر نمی رسد زیرا این فقط یک نشانه دیگر است، اما این یک نشانه بسیار متداول است. این نشانه گذاری تقریباً روی همه جملات تأثیر می گذارد و بنابراین منجر به امتیازات BLEU به میزان قابل توجهی می شود.

تعداد نامحدودی از توکن‌سازی‌های ممکن وجود دارد. به عنوان مثال، جملات فرانسوی زیر ترجمه هایی از انگلیسی هستند که من 5 توکنایزر مختلف را برای آنها اعمال می کنم. توجه: استفاده کردم حضرت موسی (متن باز، مجوز LGPL) و SacreBLEU (متن باز، مجوز آپاچی 2.0).

تصویر توسط نویسنده

این جملات یکسان هستند، اما از آنجایی که نشانه‌های متفاوتی دارند، با نشانه‌های متفاوتی از ترجمه‌های مرجع مطابقت دارند. همه این توکن‌سازی‌ها امتیازات BLEU متفاوتی را به همراه خواهند داشت در حالی که ترجمه‌ها یکسان باقی می‌مانند.

به همین دلیل است که نمی توان دو امتیاز BLEU را که بر روی ترجمه هایی که نشانه گذاری آنها متفاوت یا ناشناخته است، محاسبه کرد.

این هست اغلب نادیده گرفته می شود در مقالات علمی امروزه

شما می توانید نشانه گذاری را به عنوان پارامتر BLEU ببینید. اگر پارامترها را تغییر دهید، متریک را تغییر می دهید. نمرات دو معیار متفاوت قابل مقایسه نیستند.

زمانی که BLEU در سال 2001 پیشنهاد شد، کیفیت ترجمه ماشینی بسیار متفاوت بود.

برای اینکه ایده ای از این تفاوت به شما بدهم، سعی کردم یک سیستم ترجمه ماشینی فرانسوی به انگلیسی از دهه 2000 را بازسازی کنم. برای این منظور یک سیستم ترجمه ماشینی آماری مبتنی بر کلمه را آموزش دادم. من آن را با حضرت موسی. من این سیستم را "MT آماری (2001)" نشان خواهم داد.

سپس، یک سیستم ترجمه ماشینی عصبی را با استفاده از مدل ترانسفورماتور وانیلی آموزش دادم. من آن را با مریمی (متن باز، مجوز MIT). من این سیستم را "MT عصبی (2022)" نشان خواهم داد.

ترجمه هایی که تولید می کنند به شرح زیر است. توجه: من n-gram مطابق با ترجمه مرجع را برجسته کردم.

تصویر توسط نویسنده

همانطور که انتظار می رفت، ترجمه ایجاد شده توسط آماری MT چندان منطقی نیست، به خصوص در انتهای جمله. این n-گرم کمتر از ترجمه مرجع را نسبت به MT عصبی پوشش می دهد. از سوی دیگر، ترجمه ایجاد شده توسط MT عصبی کامل به نظر می رسد (بدون زمینه)، اما دقیقاً مشابه ترجمه مرجع نیست، بنابراین توسط BLEU جریمه می شود.

در سال 2001، سیستم‌های ترجمه ماشینی ترجمه‌هایی را تولید کردند که اغلب بی‌معنی و با خطاهای نحوی آشکار بودند. آنها به حق به دلیل عدم مطابقت با ترجمه های مرجع خاص مجازات شدند. امروزه، ترجمه ماشینی عصبی اغلب ترجمه های بسیار روانی را ایجاد می کند، به ویژه برای جفت زبان های «آسان» مانند فرانسوی-انگلیسی. آنها اغلب ترجمه مناسب را پیدا می‌کنند، اما از آنجایی که ممکن است ترجمه‌های صحیح زیادی وجود داشته باشد، یافتن ترجمه دقیقی که به عنوان مرجع استفاده می‌شود ممکن است فقط به صورت تصادفی اتفاق بیفتد.

اینجاست که ما به محدودیت‌های BLEU می‌رسیم که فقط مطابقت‌های دقیق را حتی زمانی که ترجمه صحیح باشد پاداش می‌دهد.

BLEU برای سال‌ها پیشرفت در تحقیقات ترجمه ماشینی را هدایت کرده است. در NAACL 2018، نویسندگان BLEU دریافت کردند جایزه آزمون زمان.

BLEU هنوز در بسیاری از زمینه های هوش مصنوعی استفاده می شود، اما فقط بر اساس عادت ها. اکنون در بسیاری از معیارهای ارزیابی دیگر برای وظایف تولید زبان طبیعی، از جمله ترجمه ماشینی، مانند chrF, BLEURT، یا COMET.

با این حال، BLEU یک باقی می ماند ابزار بسیار خوبی برای اهداف تشخیصی.

از آنجایی که BLEU رفتار شناخته شده ای دارد، یعنی می دانیم چه سطحی از BLEU برای کارهای ترجمه خاص باید انتظار داشت، می توان از آن برای شناسایی سریع اشکالات و سایر مشکلات در خط لوله آموزشی یک سیستم ترجمه ماشینی یا در پردازش داده آن استفاده کرد.

در هر صورت، BLEU نباید در متون کوتاه استفاده شود. در عمل، متخصصان ترجمه ماشینی همیشه BLEU را بر روی متون حاوی بیش از 1,000 جمله اجرا می کنند. BLEU به معنای ارزیابی ترجمه سند است. نباید برای ارزیابی ترجمه جمله استفاده شود.

در مورد پیاده سازی های BLEU، بسیاری از آنها به صورت عمومی در دسترس هستند. در آغوش گرفتن صورت پیاده سازی خاص خود را دارد ارزیابی کتابخانه. NLTK همچنین BLEU را پیاده سازی می کند. همچنین وجود دارد multi-bleu.perl فیلمنامه در پروژه موسی توجه داشته باشید که همه این پیاده سازی های BLEU متفاوت هستند و نتایج قابل مقایسه ای را به همراه ندارند. توصیه شخصی من این است که از پیاده سازی اصلی استفاده کنید SacreBLEU از آنجایی که این ابزار به منظور تضمین تکرارپذیری و مقایسه نمرات BLEU بود.

و اگر قصد دارید از BLEU در کار بعدی خود استفاده کنید، نیاز به آزمایش اهمیت آماری نتایج خود را نادیده نگیرید.

بهترین راه برای حمایت از کار من این است که با استفاده از پیوند من عضو Medium شوید:

اگر قبلا عضو هستید و می خواهید از این کار حمایت کنید، فقط من را در مدیوم دنبال کنید.

BLEU: معیاری نادرست از عصری دیگر از منبع https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 از طریق https://towards. com/feed

<!–

->

تمبر زمان:

بیشتر از مشاوران بلاک چین