اما امروزه هنوز در تحقیقات هوش مصنوعی استفاده می شود
GPT-3, نجوا, نخل, NLLB, کیک میوهو بسیاری از مدلهای دیگر همگی با متریک BLEU ارزیابی شدهاند تا برتری خود را در برخی کارها ادعا کنند.
اما BLEU دقیقا چیست؟ چگونه کار می کند؟
در این مقاله، ما به ۲۰ سال پیش برمیگردیم تا دلایل اصلی که BLEU را به وجود آورد و آن را به یک معیار بسیار موفق تبدیل کرد، آشکار کنیم. ما با چند مثال به نحوه عملکرد BLEU خواهیم پرداخت. من همچنین محدودیت های اصلی متریک را برجسته می کنم و توصیه هایی در مورد نحوه استفاده از آن ارائه می کنم.
این مقاله بهعنوان مقدمهای برای BLEU در نظر گرفته میشود، اما همچنین میتواند یادآوری عالی برای تمرینکنندگان باتجربه NLP/AI باشد که از BLEU بر اساس عادات و نه نیاز استفاده میکنند.
BLEU برای اولین بار در یک گزارش تحقیقاتی IBM که توسط کیشور پاپیننی، سلیم روکوس، تاد وارد و وی جینگ ژو در سال 2001 نوشته شده بود، توصیف شد. مقاله علمی در توصیف آن یک سال بعد در ACL 2002 که بسیار بیشتر استناد شده و یافتن آن آسان است.
BLEU در ابتدا به عنوان یک متریک خودکار برای ارزیابی ترجمه ماشینی (MT) پیشنهاد شد.
در سال 2001، سیستمهای ترجمه ماشینی هنوز عمدتاً به صورت دستی یا با استفاده از معیارهای خودکار قدیمیتر مانند WER ارزیابی میشدند.میزان خطای کلمه). WER یک متریک الهام گرفته شده از فاصله Levenshtein است و امروزه هنوز برای ارزیابی سیستم های تشخیص گفتار استفاده می شود. برای ارزیابی ترجمه ماشینی، WER را می توان به عنوان اجداد BLEU در نظر گرفت. نویسندگان BLEU آن را به شرح زیر بیان می کنند:
ما معیار نزدیکی خود را بر اساس معیار بسیار موفق نرخ خطای کلمه مورد استفاده توسط انجمن تشخیص گفتار طراحی می کنیم
مانند WER، BLEU معیاری است که اندازه گیری می کند چقدر یک متن به متون مرجع تولید شده توسط انسان نزدیک استبه عنوان مثال، ترجمه های مرجع.
ترجمه یک کار با چندین راه حل صحیح است، نویسندگان BLEU معیار خود را طوری طراحی کردند که بتواند چندین ترجمه مرجع را مدیریت کند. این در آن زمان جدید نبود زیرا WER قبلاً به یک "mWER" تبدیل شده بود تا چندین مرجع را نیز مدیریت کند. تا جایی که من می دانم، اولین بار توسط آن پیشنهاد شده است الشاوی و همکاران (1998) از آزمایشگاه AT&T.
توجه به این نکته مهم است که در کل مقاله ارائهشده BLEU، نویسندگان همیشه استفاده از ترجمههای مرجع متعدد را برای معیارهای خود فرض میکنند. آنها به طور مختصر در مورد استفاده از یک ترجمه مرجع برای صحیح بودن تنها در برخی شرایط بحث می کنند:
ممکن است از یک مجموعه آزمایشی بزرگ با یک ترجمه مرجع استفاده کنیم، مشروط بر اینکه ترجمه ها همه از یک مترجم نباشند.
در مقابل، امروزه بیشتر مقالات تحقیقاتی از BLEU با a استفاده می کنند مرجع واحد، اغلب از یک منشا ناشناخته، و برای وظایف مختلفیعنی نه تنها ترجمه.
از سال 2001، BLEU حداقل یک معیار بسیار موفق بوده است. این تا حدودی به دلیل آن بود هزینه محاسباتی ارزان و تکرارپذیری نمرات BLEU، بر خلاف ارزیابی انسانی که نتایج آن بسته به ارزیابان و چارچوب ارزیابی می تواند بسیار متفاوت باشد.
BLEU اکنون است تقریباً در 100٪ از مقالات تحقیقاتی ترجمه ماشینی استفاده می شود و تا حد زیادی به سایر وظایف تولید زبان طبیعی گسترش یافته است.
به طور دقیق تر، BLEU میزان خوب بودن n-گرم ترجمه را ارزیابی می کند مطابقت با n گرم از مجموعه ای از ترجمه های مرجع، در حالی که جریمه کردن ترجمه ماشینی اگر کوتاهتر یا طولانی تر باشد نسبت به ترجمه های مرجع
برخی از تعاریف:
An n-گرم دنباله ای از نشانه ها است. اجازه دهید در اینجا نیز تعریف کنیم که الف رمز دنباله ای از کاراکترها است که به طور دلخواه با فاصله مشخص شده اند. به عنوان مثال، جمله "یک نشانه یک کلمه نیست." اغلب به عنوان "یک نشانه یک کلمه نیست." در ادامه این مقاله در مورد نقش بسیار مهم توکن سازی بیشتر بحث خواهیم کرد.
برای مشاهده عمل BLEU، یک مثال از مقاله BLEU یک جمله به زبان چینی (که توسط نویسندگان ارائه نشده است) که به انگلیسی ترجمه شده است، قرض گرفتم. ما این 2 ترجمه زیر را داریم که توسط ترجمه ماشینی ایجاد شده اند:
و 3 ترجمه مرجع زیر که توسط انسان ارائه شده است:
سوالی که می خواهیم با BLEU به آن پاسخ دهیم این است:
کدام ترجمه به ترجمه های مرجع داده شده نزدیکتر است؟
من تمام n-gram هایی را که توسط ترجمه های مرجع در هر دو ترجمه کاندید پوشش داده شده اند برجسته کردم.
کاندید 1 n-گرم بیشتری را از ترجمه های مرجع پوشش می دهد، و از آنجایی که طول آن (تعداد نشانه ها) نیز به طور منطقی با طول ترجمه های مرجع مطابقت دارد، امتیاز BLEU بالاتری نسبت به کاندید 2 دریافت می کند. در اینجا BLEU از کاندید 1 صحیح است. در واقع بهتر از کاندید 2 است.
با این مثال، میتوانیم محدودیتهای آشکار BLEU را ببینیم. معنای ترجمه ارزیابی شده در نظر گرفته نشده است. BLEU فقط برای مطابقت دقیق با نشانه های ترجمه های مرجع جستجو کرد.
برای مثال، "اطمینان حاصل شود” در Candidate 2 در ترجمه های مرجع نیست، اما ”تضمین می کند" است. از آنجا که "اطمینان حاصل شود” دقیقا مشابه ” نیستتضمین می کندBLEU علیرغم داشتن معنای نزدیک به آن پاداش نمی دهد.
وقتی از نزدیک به علائم نگارشی نگاه می کنیم، می تواند حتی بدتر شود. به عنوان مثال، کاندید 2 با یک " پایان می یابد." اما این دوره به "مستقیم.” برای تشکیل یک نشانه واحد. "مستقیم.” نشانه ای از ترجمه های مرجع نیست. به کاندید 2 به دلیل اینکه این دوره را به درستی درج کرده است، پاداشی دریافت نمی شود.
به همین دلیل است که BLEU معمولاً بر روی ترجمههایی محاسبه میشود که برای تقسیم نشانههای حاوی علامتهای نقطهگذاری توکنیزه میشوند. در بخش بعدی بیشتر به آن خواهیم پرداخت.
برای ساده نگه داشتن آن، من در مورد معادلات BLEU بحث نمی کنم. اگر علاقه دارید BLEU را خودتان محاسبه کنید، از شما دعوت می کنم مقاله BLEU را بخوانید که در آن تمام معادلات به خوبی انگیزه و توضیح داده شده است.
ما دیدیم که BLEU بسیار سختگیرانه است زیرا یک نشانه باید با یک نشانه در ترجمه های مرجع یکسان باشد تا به عنوان یک تطابق محاسبه شود. اینجاست که توکنیزاسیون نقش بسیار مهمی دارد اغلب سوء تفاهم می شود نقش.
نشانه گذاری مقداری می دهد انعطاف پذیری به BLEU.
برای مثال بیایید دوباره به Candidate 2 نگاه کنیم:
این است که اطمینان حاصل شود که سربازان برای همیشه کتاب راهنمای فعالیت آن حزب را می شنوند.
اما این بار، قوانین نشانه گذاری ساده را برای جدا کردن علائم نگارشی از کلمات اعمال می کنیم. ما بدست می آوریم:
این است که اطمینان حاصل شود که سربازان برای همیشه کتاب راهنمای فعالیت آن حزب را می شنوند.
توجه داشته باشید که "."از" جدا شده استمستقیم” توسط یک فاصله. این تنها تفاوت است. کاندید 2 اکنون با یک نشانه دیگر از ترجمه های مرجع مطابقت دارد. این نشانه ".". مهم به نظر نمی رسد زیرا این فقط یک نشانه دیگر است، اما این یک نشانه بسیار متداول است. این نشانه گذاری تقریباً روی همه جملات تأثیر می گذارد و بنابراین منجر به امتیازات BLEU به میزان قابل توجهی می شود.
تعداد نامحدودی از توکنسازیهای ممکن وجود دارد. به عنوان مثال، جملات فرانسوی زیر ترجمه هایی از انگلیسی هستند که من 5 توکنایزر مختلف را برای آنها اعمال می کنم. توجه: استفاده کردم حضرت موسی (متن باز، مجوز LGPL) و SacreBLEU (متن باز، مجوز آپاچی 2.0).
این جملات یکسان هستند، اما از آنجایی که نشانههای متفاوتی دارند، با نشانههای متفاوتی از ترجمههای مرجع مطابقت دارند. همه این توکنسازیها امتیازات BLEU متفاوتی را به همراه خواهند داشت در حالی که ترجمهها یکسان باقی میمانند.
به همین دلیل است که نمی توان دو امتیاز BLEU را که بر روی ترجمه هایی که نشانه گذاری آنها متفاوت یا ناشناخته است، محاسبه کرد.
این هست اغلب نادیده گرفته می شود در مقالات علمی امروزه
شما می توانید نشانه گذاری را به عنوان پارامتر BLEU ببینید. اگر پارامترها را تغییر دهید، متریک را تغییر می دهید. نمرات دو معیار متفاوت قابل مقایسه نیستند.
زمانی که BLEU در سال 2001 پیشنهاد شد، کیفیت ترجمه ماشینی بسیار متفاوت بود.
برای اینکه ایده ای از این تفاوت به شما بدهم، سعی کردم یک سیستم ترجمه ماشینی فرانسوی به انگلیسی از دهه 2000 را بازسازی کنم. برای این منظور یک سیستم ترجمه ماشینی آماری مبتنی بر کلمه را آموزش دادم. من آن را با حضرت موسی. من این سیستم را "MT آماری (2001)" نشان خواهم داد.
سپس، یک سیستم ترجمه ماشینی عصبی را با استفاده از مدل ترانسفورماتور وانیلی آموزش دادم. من آن را با مریمی (متن باز، مجوز MIT). من این سیستم را "MT عصبی (2022)" نشان خواهم داد.
ترجمه هایی که تولید می کنند به شرح زیر است. توجه: من n-gram مطابق با ترجمه مرجع را برجسته کردم.
همانطور که انتظار می رفت، ترجمه ایجاد شده توسط آماری MT چندان منطقی نیست، به خصوص در انتهای جمله. این n-گرم کمتر از ترجمه مرجع را نسبت به MT عصبی پوشش می دهد. از سوی دیگر، ترجمه ایجاد شده توسط MT عصبی کامل به نظر می رسد (بدون زمینه)، اما دقیقاً مشابه ترجمه مرجع نیست، بنابراین توسط BLEU جریمه می شود.
در سال 2001، سیستمهای ترجمه ماشینی ترجمههایی را تولید کردند که اغلب بیمعنی و با خطاهای نحوی آشکار بودند. آنها به حق به دلیل عدم مطابقت با ترجمه های مرجع خاص مجازات شدند. امروزه، ترجمه ماشینی عصبی اغلب ترجمه های بسیار روانی را ایجاد می کند، به ویژه برای جفت زبان های «آسان» مانند فرانسوی-انگلیسی. آنها اغلب ترجمه مناسب را پیدا میکنند، اما از آنجایی که ممکن است ترجمههای صحیح زیادی وجود داشته باشد، یافتن ترجمه دقیقی که به عنوان مرجع استفاده میشود ممکن است فقط به صورت تصادفی اتفاق بیفتد.
اینجاست که ما به محدودیتهای BLEU میرسیم که فقط مطابقتهای دقیق را حتی زمانی که ترجمه صحیح باشد پاداش میدهد.
BLEU برای سالها پیشرفت در تحقیقات ترجمه ماشینی را هدایت کرده است. در NAACL 2018، نویسندگان BLEU دریافت کردند جایزه آزمون زمان.
BLEU هنوز در بسیاری از زمینه های هوش مصنوعی استفاده می شود، اما فقط بر اساس عادت ها. اکنون در بسیاری از معیارهای ارزیابی دیگر برای وظایف تولید زبان طبیعی، از جمله ترجمه ماشینی، مانند chrF, BLEURT، یا COMET.
با این حال، BLEU یک باقی می ماند ابزار بسیار خوبی برای اهداف تشخیصی.
از آنجایی که BLEU رفتار شناخته شده ای دارد، یعنی می دانیم چه سطحی از BLEU برای کارهای ترجمه خاص باید انتظار داشت، می توان از آن برای شناسایی سریع اشکالات و سایر مشکلات در خط لوله آموزشی یک سیستم ترجمه ماشینی یا در پردازش داده آن استفاده کرد.
در هر صورت، BLEU نباید در متون کوتاه استفاده شود. در عمل، متخصصان ترجمه ماشینی همیشه BLEU را بر روی متون حاوی بیش از 1,000 جمله اجرا می کنند. BLEU به معنای ارزیابی ترجمه سند است. نباید برای ارزیابی ترجمه جمله استفاده شود.
در مورد پیاده سازی های BLEU، بسیاری از آنها به صورت عمومی در دسترس هستند. در آغوش گرفتن صورت پیاده سازی خاص خود را دارد ارزیابی کتابخانه. NLTK همچنین BLEU را پیاده سازی می کند. همچنین وجود دارد multi-bleu.perl فیلمنامه در پروژه موسی توجه داشته باشید که همه این پیاده سازی های BLEU متفاوت هستند و نتایج قابل مقایسه ای را به همراه ندارند. توصیه شخصی من این است که از پیاده سازی اصلی استفاده کنید SacreBLEU از آنجایی که این ابزار به منظور تضمین تکرارپذیری و مقایسه نمرات BLEU بود.
و اگر قصد دارید از BLEU در کار بعدی خود استفاده کنید، نیاز به آزمایش اهمیت آماری نتایج خود را نادیده نگیرید.
بهترین راه برای حمایت از کار من این است که با استفاده از پیوند من عضو Medium شوید:
اگر قبلا عضو هستید و می خواهید از این کار حمایت کنید، فقط من را در مدیوم دنبال کنید.
BLEU: معیاری نادرست از عصری دیگر از منبع https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 از طریق https://towards. com/feed
<!–
->
- بیت کوین
- bizbuildermike
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- مشاوران بلاک چین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت