BLEU: दूसरे युग की एक गलत समझी गई मीट्रिक

लेकिन AI अनुसंधान में आज भी इसका उपयोग किया जाता है

एक नीली दीवार - पिक्साबे से छवि

GPT-3, फुसफुसाना, हथेली, एनएलएलबी, फ़्लान, और कई अन्य मॉडलों का मूल्यांकन कुछ कार्यों में उनकी श्रेष्ठता का दावा करने के लिए मीट्रिक BLEU के साथ किया गया है।

लेकिन वास्तव में BLEU क्या है? यह कैसे काम करता है?

इस लेख में, हम 20 साल पहले जाकर उन मुख्य कारणों को उजागर करेंगे जिन्होंने BLEU को अस्तित्व में लाया और इसे एक बहुत ही सफल मीट्रिक बना दिया। हम कुछ उदाहरणों के साथ देखेंगे कि BLEU कैसे काम करता है। मैं मीट्रिक की मुख्य सीमाओं पर भी प्रकाश डालूंगा और इसका उपयोग करने के तरीके पर सिफारिशें प्रदान करूंगा।

इस लेख को BLEU के परिचय के रूप में माना जाता है, लेकिन यह अनुभवी NLP/AI अभ्यासकर्ताओं के लिए एक महान अनुस्मारक भी हो सकता है जो BLEU का उपयोग आवश्यकता के बजाय आदतों से करते हैं।

BLEU का वर्णन पहली बार 2001 में किशोर पापिनेनी, सलीम रूकोस, टॉड वार्ड और वेई-जिंग झू द्वारा सह-लिखित IBM शोध रिपोर्ट में किया गया था। इसका वर्णन करने वाला वैज्ञानिक पेपर एक साल बाद एसीएल 2002 में, जो कहीं अधिक उद्धृत है और खोजने में आसान है।

BLEU को मूल रूप से मशीनी अनुवाद (MT) का मूल्यांकन करने के लिए एक स्वचालित मीट्रिक के रूप में प्रस्तावित किया गया था।

2001 में, मशीनी अनुवाद प्रणालियों का मूल्यांकन अभी भी मुख्य रूप से मैन्युअल रूप से किया जाता था, या WER जैसे पुराने स्वचालित मेट्रिक्स का उपयोग करके किया जाता था।शब्द त्रुटि दर). WER लेवेनशेटिन दूरी से प्रेरित एक मीट्रिक है और इसका उपयोग आज भी वाक् पहचान प्रणालियों के मूल्यांकन के लिए किया जाता है। मशीनी अनुवाद मूल्यांकन के लिए, WER को BLEU के पूर्वज के रूप में देखा जा सकता है। BLEU के लेखक इसे इस प्रकार व्यक्त करते हैं:

वाक् पहचान समुदाय द्वारा उपयोग की जाने वाली अत्यधिक सफल शब्द त्रुटि दर मीट्रिक के बाद हम अपनी निकटता मीट्रिक तैयार करते हैं

WER की तरह, BLEU एक मीट्रिक है जो मापता है कोई पाठ मनुष्य द्वारा निर्मित संदर्भ के ग्रंथों के कितना करीब है, उदाहरण के लिए, संदर्भ अनुवाद।

अनुवाद कई सही समाधानों वाला एक कार्य है, BLEU के लेखकों ने अपने मीट्रिक को डिज़ाइन किया है ताकि यह कई संदर्भ अनुवादों को संभाल सके। उस समय यह कोई नई बात नहीं थी क्योंकि कई संदर्भों को संभालने के लिए WER को पहले से ही "mWER" में तब्दील किया जा रहा था। जहां तक ​​मेरी जानकारी है, यह सबसे पहले किसके द्वारा प्रस्तावित किया गया है अलशावी एट अल. (1998) एटी एंड टी लैब्स से।

यह ध्यान रखना महत्वपूर्ण है कि, BLEU प्रस्तुत करने वाले पूरे पेपर में, लेखक हमेशा अपने मीट्रिक के लिए कई संदर्भ अनुवादों के उपयोग का अनुमान लगाते हैं। वे केवल कुछ परिस्थितियों में ही सही होने के लिए एकल संदर्भ अनुवाद के उपयोग पर संक्षेप में चर्चा करते हैं:

हम एकल संदर्भ अनुवाद के साथ एक बड़े परीक्षण कोष का उपयोग कर सकते हैं, बशर्ते कि सभी अनुवाद एक ही अनुवादक के न हों।

इसके विपरीत, आजकल अधिकांश शोधपत्र BLEU का उपयोग करते हैं एकल संदर्भ, अक्सर एक से अज्ञात उत्पत्तिके लिए, और विभिन्न कार्यों, अर्थात, केवल अनुवाद नहीं।

2001 से, BLEU कम से कम कहने के लिए एक बहुत ही सफल मीट्रिक रहा है। यह आंशिक रूप से इसके कारण था सस्ती कम्प्यूटेशनल लागत और BLEU स्कोर की प्रतिलिपि प्रस्तुत करने योग्यता, मानव मूल्यांकन के विपरीत जिसके परिणाम मूल्यांकनकर्ताओं और मूल्यांकन ढांचे के आधार पर बहुत भिन्न हो सकते हैं।

BLEU अब है लगभग 100% मशीनी अनुवाद शोध पत्रों में उपयोग किया जाता है और बड़े पैमाने पर अन्य प्राकृतिक भाषा निर्माण कार्यों तक फैल गया है।

अधिक सटीक रूप से, BLEU मूल्यांकन करता है कि अनुवाद के एन-ग्राम कितने अच्छे हैं एन-ग्राम का मिलान जबकि, संदर्भ अनुवादों के एक सेट से मशीनी अनुवाद छोटा या लंबा होने पर दंडित किया जाएगा संदर्भ अनुवाद की तुलना में.

कुछ परिभाषाएँ:

An एन-ग्राम टोकन का एक क्रम है. आइए यहां यह भी परिभाषित करें कि ए टोकन रिक्त स्थान द्वारा मनमाने ढंग से सीमांकित वर्णों का एक क्रम है। उदाहरण के लिए, वाक्य "एक टोकन एक शब्द नहीं है।" इसे अक्सर "टोकन एक शब्द नहीं है" के रूप में चिह्नित किया जाएगा। हम इस लेख में बाद में टोकनाइजेशन की अत्यंत महत्वपूर्ण भूमिका पर अधिक चर्चा करेंगे।

BLEU को कार्य में देखने के लिए, मैंने BLEU पेपर से चीनी भाषा में एक वाक्य (लेखकों द्वारा प्रदान नहीं किया गया) का अंग्रेजी में अनुवादित एक उदाहरण उधार लिया। हमारे पास मशीनी अनुवाद द्वारा उत्पन्न ये निम्नलिखित 2 अनुवाद हैं:

लेखक द्वारा छवि

और निम्नलिखित 3 संदर्भ अनुवाद मनुष्यों द्वारा प्रदान किए गए:

लेखक द्वारा छवि

BLEU के साथ हम जिस प्रश्न का उत्तर देना चाहते हैं वह है:

कौन सा अनुवाद दिए गए संदर्भ अनुवादों के सबसे निकट है?

मैंने उन सभी एन-ग्रामों पर प्रकाश डाला जो दोनों उम्मीदवार अनुवादों में संदर्भ अनुवादों द्वारा कवर किए गए हैं।

लेखक द्वारा छवि

उम्मीदवार 1 संदर्भ अनुवादों से कई अधिक एन-ग्राम को कवर करता है, और चूंकि इसकी लंबाई (टोकन की संख्या) भी संदर्भ अनुवादों की लंबाई से काफी मेल खाती है, इसलिए इसे उम्मीदवार 2 की तुलना में अधिक BLEU स्कोर मिलेगा। यहां BLEU उम्मीदवार 1 के बाद से सही है वास्तव में कैंडिडेट 2 से बेहतर है।

इस उदाहरण से, हम BLEU की कुछ स्पष्ट सीमाएँ देख सकते हैं। मूल्यांकित अनुवाद के अर्थ पर विचार नहीं किया जाता है। BLEU ने केवल संदर्भ अनुवादों के टोकन के साथ सटीक मिलान की खोज की।

उदाहरण के लिए, "सुनिश्चित"उम्मीदवार 2 में संदर्भ अनुवाद में नहीं है, लेकिन "सुनिश्चित" है। तब से "सुनिश्चित" बिल्कुल " के समान नहीं हैसुनिश्चित”, करीबी अर्थ होने के बावजूद BLEU इसे पुरस्कृत नहीं करता है।

यह और भी बुरा हो सकता है जब हम विराम चिह्नों को करीब से देखते हैं। उदाहरण के लिए, उम्मीदवार 2 " के साथ समाप्त होता है."लेकिन यह अवधि" से जुड़ी हैप्रत्यक्ष।"एकल टोकन बनाने के लिए। “प्रत्यक्ष।” संदर्भ अनुवाद का प्रतीक नहीं है। इस अवधि को सही ढंग से शामिल करने के लिए उम्मीदवार 2 को पुरस्कृत नहीं किया गया है।

यही कारण है कि BLEU की गणना आमतौर पर उन अनुवादों पर की जाती है जो विराम चिह्न वाले टोकन को विभाजित करने के लिए टोकनयुक्त होते हैं। हम अगले भाग में इस पर आगे चर्चा करेंगे।

इसे सरल बनाए रखने के लिए, मैं BLEU के पीछे के समीकरणों पर चर्चा नहीं करूँगा। यदि आप स्वयं BLEU की गणना करने में रुचि रखते हैं, तो मैं आपको BLEU पेपर पढ़ने के लिए आमंत्रित करता हूं जहां सभी समीकरण अच्छी तरह से प्रेरित और समझाए गए हैं।

हमने देखा कि BLEU बहुत सख्त है क्योंकि एक टोकन को एक मैच के रूप में गिनने के लिए संदर्भ अनुवाद में एक टोकन के समान होना चाहिए। यहीं पर टोकनाइजेशन बहुत महत्वपूर्ण भूमिका निभाता है अक्सर गलत समझा भूमिका.

टोकनाइजेशन कुछ देता है लचीलापन BLEU को.

उदाहरण के लिए आइए उम्मीदवार 2 पर फिर से नजर डालें:

यह यह सुनिश्चित करने के लिए है कि सैनिक पार्टी द्वारा निर्देशित गतिविधि गाइडबुक को हमेशा सुनते रहें।

लेकिन इस बार, हम शब्दों से विराम चिह्नों को अलग करने के लिए सरल टोकन नियम लागू करते हैं। हमने प्राप्त:

यह यह सुनिश्चित करने के लिए है कि सैनिक पार्टी द्वारा निर्देशित गतिविधि गाइडबुक को हमेशा सुनते रहें।

ध्यान दें कि "."से अलग कर दिया गया है"प्रत्यक्ष“एक स्थान द्वारा. बस यही अंतर है. उम्मीदवार 2 अब संदर्भ अनुवादों से एक और टोकन से मेल खाता है। यह टोकन है ".”। यह महत्वपूर्ण नहीं लगता क्योंकि यह केवल एक और टोकन है, लेकिन यह बहुत बार होता है। इस टोकनाइजेशन का लगभग सभी वाक्यों पर प्रभाव पड़ेगा और इस प्रकार BLEU स्कोर काफी बेहतर हो जाएगा।

संभावित टोकनाइजेशन की अनंत संख्या है। उदाहरण के लिए, निम्नलिखित फ्रेंच वाक्य अंग्रेजी से अनुवाद हैं जिनमें मैं 5 अलग-अलग टोकननाइजर लागू करता हूं। नोट: मैंने प्रयोग किया मोसेस (खुला स्रोत, एलजीपीएल लाइसेंस) और Sacre Bleu (खुला स्रोत, अपाचे लाइसेंस 2.0).

लेखक द्वारा छवि

ये वही वाक्य हैं, लेकिन चूंकि इन्हें अलग-अलग तरीके से टोकन किया गया है, इसलिए वे संदर्भ अनुवादों से अलग-अलग टोकन से मेल खाएंगे। इन सभी टोकनाइजेशन से अलग-अलग BLEU स्कोर प्राप्त होंगे जबकि अनुवाद समान रहेंगे।

यही कारण है कि अनुवादों पर गणना किए गए दो BLEU स्कोर, जिनके लिए टोकन अलग है, या अज्ञात है, की तुलना नहीं की जा सकती है।

यह वह जगह है अक्सर देखा गया आजकल वैज्ञानिक पत्रों में।

आप टोकननाइजेशन को BLEU के पैरामीटर के रूप में देख सकते हैं। यदि आप पैरामीटर बदलते हैं तो आप मीट्रिक बदल देते हैं। दो अलग-अलग मेट्रिक्स के स्कोर की तुलना नहीं की जा सकती.

जब 2001 में BLEU प्रस्तावित किया गया था, तो मशीनी अनुवाद की गुणवत्ता बहुत अलग थी।

आपको इस अंतर का अंदाज़ा देने के लिए, मैंने 2000 के दशक की फ़्रेंच-से-अंग्रेज़ी मशीनी अनुवाद प्रणाली को फिर से बनाने का प्रयास किया। इस उद्देश्य के लिए, मैंने एक शब्द-आधारित सांख्यिकीय मशीनी अनुवाद प्रणाली का प्रशिक्षण लिया। मैंने इसके साथ किया मोसेस. मैं इस प्रणाली को "सांख्यिकीय एमटी (2001)" कहूंगा।

फिर, मैंने वेनिला ट्रांसफार्मर मॉडल का उपयोग करके एक तंत्रिका मशीन अनुवाद प्रणाली को प्रशिक्षित किया। मैंने इसके साथ किया मैरिएन (खुला स्रोत, एमआईटी लाइसेंस)। मैं इस प्रणाली को "न्यूरल एमटी (2022)" कहूंगा।

उनके द्वारा उत्पन्न अनुवाद इस प्रकार हैं। नोट: मैंने संदर्भ अनुवाद से मेल खाते एन-ग्राम पर प्रकाश डाला है।

लेखक द्वारा छवि

जैसा कि अपेक्षित था, सांख्यिकीय एमटी द्वारा उत्पन्न अनुवाद का कोई विशेष अर्थ नहीं है, विशेषकर वाक्य के अंत में। यह न्यूरल एमटी की तुलना में संदर्भ अनुवाद से कम एन-ग्राम को कवर करता है। दूसरी ओर, न्यूरल एमटी द्वारा उत्पन्न अनुवाद बिल्कुल सही (संदर्भ के बिना) दिखता है, लेकिन यह संदर्भ अनुवाद के बिल्कुल समान नहीं है, इसलिए इसे BLEU द्वारा दंडित किया जाएगा।

2001 में, मशीनी अनुवाद प्रणालियों ने ऐसे अनुवाद तैयार किए जो अक्सर अर्थहीन होते थे और स्पष्ट वाक्यविन्यास त्रुटियों के साथ होते थे। विशिष्ट संदर्भ अनुवादों का मिलान न करने के लिए उन्हें उचित रूप से दंडित किया गया था। आजकल, तंत्रिका मशीन अनुवाद अक्सर बहुत धाराप्रवाह अनुवाद उत्पन्न करता है, विशेष रूप से फ्रेंच-अंग्रेजी जैसे "आसान" भाषा जोड़ों के लिए। वे अक्सर सही अनुवाद ढूंढ लेंगे, लेकिन चूंकि कई संभावित सही अनुवाद हैं, संदर्भ के रूप में उपयोग किए जाने वाले सटीक अनुवाद को ढूंढना केवल संयोग से ही हो सकता है।

यहीं पर हम BLEU की सीमा तक पहुँचते हैं जो अनुवाद सही होने पर भी केवल सटीक मिलानों को ही पुरस्कृत करेगा।

BLEU ने कई वर्षों तक मशीनी अनुवाद अनुसंधान में प्रगति का मार्गदर्शन किया है। NAACL 2018 में, BLEU के लेखकों को पुरस्कार मिला समय-परीक्षा पुरस्कार.

BLEU का उपयोग अभी भी AI के कई क्षेत्रों में किया जाता है, लेकिन केवल आदतों के द्वारा। यह अब मशीनी अनुवाद सहित प्राकृतिक भाषा निर्माण कार्यों के लिए कई अन्य मूल्यांकन मेट्रिक्स द्वारा काफी हद तक बेहतर प्रदर्शन कर रहा है सीएचआरएफ, ब्लुर्टया, कोमेट.

बहरहाल, BLEU एक बना हुआ है निदान प्रयोजनों के लिए बहुत अच्छा उपकरण.

चूँकि BLEU का एक सुविख्यात व्यवहार है, यानी, हम जानते हैं कि विशेष अनुवाद कार्यों के लिए BLEU के किस स्तर की अपेक्षा की जानी चाहिए, इसका उपयोग मशीन अनुवाद प्रणाली की प्रशिक्षण पाइपलाइन या इसके डेटा प्रोसेसिंग में बग और अन्य समस्याओं को तुरंत पहचानने के लिए किया जा सकता है।

किसी भी स्थिति में, BLEU छोटे पाठों पर उपयोग नहीं किया जाना चाहिए. व्यवहार में, मशीनी अनुवाद व्यवसायी हमेशा 1,000 से अधिक वाक्यों वाले पाठों पर BLEU चलाते हैं। BLEU का उद्देश्य दस्तावेज़ अनुवाद का मूल्यांकन करना है। इसका उपयोग वाक्य अनुवाद का मूल्यांकन करने के लिए नहीं किया जाना चाहिए।

जहां तक ​​BLEU के कार्यान्वयन का सवाल है, कई सार्वजनिक रूप से उपलब्ध हैं। हगिंग फेस का अपना कार्यान्वयन है पुस्तकालय का मूल्यांकन करें. एनएलटीके BLEU भी लागू करता है। वहाँ भी है मल्टी-ब्लू.पर्ल मूसा परियोजना में स्क्रिप्ट। ध्यान दें कि BLEU के ये सभी कार्यान्वयन अलग-अलग हैं और तुलनीय परिणाम नहीं देंगे। मेरी व्यक्तिगत सिफ़ारिश है कि इसके मूल कार्यान्वयन का उपयोग करें Sacre Bleu चूँकि यह उपकरण BLEU स्कोर की प्रतिलिपि प्रस्तुत करने योग्यता और तुलनीयता की गारंटी देने के लिए था।

और यदि आप अपने अगले कार्य में BLEU का उपयोग करने की योजना बना रहे हैं, तो अपने परिणामों के सांख्यिकीय महत्व का परीक्षण करने की आवश्यकता को नज़रअंदाज़ न करें।

मेरे काम का समर्थन करने का सबसे अच्छा तरीका मेरे लिंक का उपयोग करके एक माध्यम सदस्य बनना है:

यदि आप पहले से ही सदस्य हैं और इस कार्य में सहयोग देना चाहते हैं, तो बस मीडियम पर मुझे फॉलो करो.

BLEU: अन्य युग से एक गलत समझा गया मीट्रिक, स्रोत https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 से https://towardsdatascience द्वारा पुनर्प्रकाशित। com/फ़ीड

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स