BLEU: दूसरे युग की एक गलत समझी गई मीट्रिक

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

लेकिन AI अनुसंधान में आज भी इसका उपयोग किया जाता है

GPT-3, फुसफुसाना, हथेली, एनएलएलबी, फ़्लान, और कई अन्य मॉडलों का मूल्यांकन कुछ कार्यों में उनकी श्रेष्ठता का दावा करने के लिए मीट्रिक BLEU के साथ किया गया है।

लेकिन वास्तव में BLEU क्या है? यह कैसे काम करता है?

इस लेख में, हम 20 साल पहले जाकर उन मुख्य कारणों को उजागर करेंगे जिन्होंने BLEU को अस्तित्व में लाया और इसे एक बहुत ही सफल मीट्रिक बना दिया। हम कुछ उदाहरणों के साथ देखेंगे कि BLEU कैसे काम करता है। मैं मीट्रिक की मुख्य सीमाओं पर भी प्रकाश डालूंगा और इसका उपयोग करने के तरीके पर सिफारिशें प्रदान करूंगा।

इस लेख को BLEU के परिचय के रूप में माना जाता है, लेकिन यह अनुभवी NLP/AI अभ्यासकर्ताओं के लिए एक महान अनुस्मारक भी हो सकता है जो BLEU का उपयोग आवश्यकता के बजाय आदतों से करते हैं।

BLEU का वर्णन पहली बार 2001 में किशोर पापिनेनी, सलीम रूकोस, टॉड वार्ड और वेई-जिंग झू द्वारा सह-लिखित IBM शोध रिपोर्ट में किया गया था। इसका वर्णन करने वाला वैज्ञानिक पेपर एक साल बाद एसीएल 2002 में, जो कहीं अधिक उद्धृत है और खोजने में आसान है।

BLEU को मूल रूप से मशीनी अनुवाद (MT) का मूल्यांकन करने के लिए एक स्वचालित मीट्रिक के रूप में प्रस्तावित किया गया था।

2001 में, मशीनी अनुवाद प्रणालियों का मूल्यांकन अभी भी मुख्य रूप से मैन्युअल रूप से किया जाता था, या WER जैसे पुराने स्वचालित मेट्रिक्स का उपयोग करके किया जाता था।शब्द त्रुटि दर). WER लेवेनशेटिन दूरी से प्रेरित एक मीट्रिक है और इसका उपयोग आज भी वाक् पहचान प्रणालियों के मूल्यांकन के लिए किया जाता है। मशीनी अनुवाद मूल्यांकन के लिए, WER को BLEU के पूर्वज के रूप में देखा जा सकता है। BLEU के लेखक इसे इस प्रकार व्यक्त करते हैं:

वाक् पहचान समुदाय द्वारा उपयोग की जाने वाली अत्यधिक सफल शब्द त्रुटि दर मीट्रिक के बाद हम अपनी निकटता मीट्रिक तैयार करते हैं

WER की तरह, BLEU एक मीट्रिक है जो मापता है कोई पाठ मनुष्य द्वारा निर्मित संदर्भ के ग्रंथों के कितना करीब है, उदाहरण के लिए, संदर्भ अनुवाद।

अनुवाद कई सही समाधानों वाला एक कार्य है, BLEU के लेखकों ने अपने मीट्रिक को डिज़ाइन किया है ताकि यह कई संदर्भ अनुवादों को संभाल सके। उस समय यह कोई नई बात नहीं थी क्योंकि कई संदर्भों को संभालने के लिए WER को पहले से ही "mWER" में तब्दील किया जा रहा था। जहां तक मेरी जानकारी है, यह सबसे पहले किसके द्वारा प्रस्तावित किया गया है अलशावी एट अल. (1998) एटी एंड टी लैब्स से।

यह ध्यान रखना महत्वपूर्ण है कि, BLEU प्रस्तुत करने वाले पूरे पेपर में, लेखक हमेशा अपने मीट्रिक के लिए कई संदर्भ अनुवादों के उपयोग का अनुमान लगाते हैं। वे केवल कुछ परिस्थितियों में ही सही होने के लिए एकल संदर्भ अनुवाद के उपयोग पर संक्षेप में चर्चा करते हैं:

हम एकल संदर्भ अनुवाद के साथ एक बड़े परीक्षण कोष का उपयोग कर सकते हैं, बशर्ते कि सभी अनुवाद एक ही अनुवादक के न हों।

इसके विपरीत, आजकल अधिकांश शोधपत्र BLEU का उपयोग करते हैं एकल संदर्भ, अक्सर एक से अज्ञात उत्पत्तिके लिए, और विभिन्न कार्यों, अर्थात, केवल अनुवाद नहीं।

2001 से, BLEU कम से कम कहने के लिए एक बहुत ही सफल मीट्रिक रहा है। यह आंशिक रूप से इसके कारण था सस्ती कम्प्यूटेशनल लागत और BLEU स्कोर की प्रतिलिपि प्रस्तुत करने योग्यता, मानव मूल्यांकन के विपरीत जिसके परिणाम मूल्यांकनकर्ताओं और मूल्यांकन ढांचे के आधार पर बहुत भिन्न हो सकते हैं।

BLEU अब है लगभग 100% मशीनी अनुवाद शोध पत्रों में उपयोग किया जाता है और बड़े पैमाने पर अन्य प्राकृतिक भाषा निर्माण कार्यों तक फैल गया है।

अधिक सटीक रूप से, BLEU मूल्यांकन करता है कि अनुवाद के एन-ग्राम कितने अच्छे हैं एन-ग्राम का मिलान जबकि, संदर्भ अनुवादों के एक सेट से मशीनी अनुवाद छोटा या लंबा होने पर दंडित किया जाएगा संदर्भ अनुवाद की तुलना में.

कुछ परिभाषाएँ:

An एन-ग्राम टोकन का एक क्रम है. आइए यहां यह भी परिभाषित करें कि ए टोकन रिक्त स्थान द्वारा मनमाने ढंग से सीमांकित वर्णों का एक क्रम है। उदाहरण के लिए, वाक्य "एक टोकन एक शब्द नहीं है।" इसे अक्सर "टोकन एक शब्द नहीं है" के रूप में चिह्नित किया जाएगा। हम इस लेख में बाद में टोकनाइजेशन की अत्यंत महत्वपूर्ण भूमिका पर अधिक चर्चा करेंगे।

BLEU को कार्य में देखने के लिए, मैंने BLEU पेपर से चीनी भाषा में एक वाक्य (लेखकों द्वारा प्रदान नहीं किया गया) का अंग्रेजी में अनुवादित एक उदाहरण उधार लिया। हमारे पास मशीनी अनुवाद द्वारा उत्पन्न ये निम्नलिखित 2 अनुवाद हैं:

और निम्नलिखित 3 संदर्भ अनुवाद मनुष्यों द्वारा प्रदान किए गए:

BLEU के साथ हम जिस प्रश्न का उत्तर देना चाहते हैं वह है:

कौन सा अनुवाद दिए गए संदर्भ अनुवादों के सबसे निकट है?

मैंने उन सभी एन-ग्रामों पर प्रकाश डाला जो दोनों उम्मीदवार अनुवादों में संदर्भ अनुवादों द्वारा कवर किए गए हैं।

उम्मीदवार 1 संदर्भ अनुवादों से कई अधिक एन-ग्राम को कवर करता है, और चूंकि इसकी लंबाई (टोकन की संख्या) भी संदर्भ अनुवादों की लंबाई से काफी मेल खाती है, इसलिए इसे उम्मीदवार 2 की तुलना में अधिक BLEU स्कोर मिलेगा। यहां BLEU उम्मीदवार 1 के बाद से सही है वास्तव में कैंडिडेट 2 से बेहतर है।

इस उदाहरण से, हम BLEU की कुछ स्पष्ट सीमाएँ देख सकते हैं। मूल्यांकित अनुवाद के अर्थ पर विचार नहीं किया जाता है। BLEU ने केवल संदर्भ अनुवादों के टोकन के साथ सटीक मिलान की खोज की।

उदाहरण के लिए, "सुनिश्चित"उम्मीदवार 2 में संदर्भ अनुवाद में नहीं है, लेकिन "सुनिश्चित" है। तब से "सुनिश्चित" बिल्कुल " के समान नहीं हैसुनिश्चित”, करीबी अर्थ होने के बावजूद BLEU इसे पुरस्कृत नहीं करता है।

यह और भी बुरा हो सकता है जब हम विराम चिह्नों को करीब से देखते हैं। उदाहरण के लिए, उम्मीदवार 2 " के साथ समाप्त होता है."लेकिन यह अवधि" से जुड़ी हैप्रत्यक्ष।"एकल टोकन बनाने के लिए। “प्रत्यक्ष।” संदर्भ अनुवाद का प्रतीक नहीं है। इस अवधि को सही ढंग से शामिल करने के लिए उम्मीदवार 2 को पुरस्कृत नहीं किया गया है।

यही कारण है कि BLEU की गणना आमतौर पर उन अनुवादों पर की जाती है जो विराम चिह्न वाले टोकन को विभाजित करने के लिए टोकनयुक्त होते हैं। हम अगले भाग में इस पर आगे चर्चा करेंगे।

इसे सरल बनाए रखने के लिए, मैं BLEU के पीछे के समीकरणों पर चर्चा नहीं करूँगा। यदि आप स्वयं BLEU की गणना करने में रुचि रखते हैं, तो मैं आपको BLEU पेपर पढ़ने के लिए आमंत्रित करता हूं जहां सभी समीकरण अच्छी तरह से प्रेरित और समझाए गए हैं।

हमने देखा कि BLEU बहुत सख्त है क्योंकि एक टोकन को एक मैच के रूप में गिनने के लिए संदर्भ अनुवाद में एक टोकन के समान होना चाहिए। यहीं पर टोकनाइजेशन बहुत महत्वपूर्ण भूमिका निभाता है अक्सर गलत समझा भूमिका.

टोकनाइजेशन कुछ देता है लचीलापन BLEU को.

उदाहरण के लिए आइए उम्मीदवार 2 पर फिर से नजर डालें:

यह यह सुनिश्चित करने के लिए है कि सैनिक पार्टी द्वारा निर्देशित गतिविधि गाइडबुक को हमेशा सुनते रहें।

लेकिन इस बार, हम शब्दों से विराम चिह्नों को अलग करने के लिए सरल टोकन नियम लागू करते हैं। हमने प्राप्त:

यह यह सुनिश्चित करने के लिए है कि सैनिक पार्टी द्वारा निर्देशित गतिविधि गाइडबुक को हमेशा सुनते रहें।

ध्यान दें कि "."से अलग कर दिया गया है"प्रत्यक्ष“एक स्थान द्वारा. बस यही अंतर है. उम्मीदवार 2 अब संदर्भ अनुवादों से एक और टोकन से मेल खाता है। यह टोकन है ".”। यह महत्वपूर्ण नहीं लगता क्योंकि यह केवल एक और टोकन है, लेकिन यह बहुत बार होता है। इस टोकनाइजेशन का लगभग सभी वाक्यों पर प्रभाव पड़ेगा और इस प्रकार BLEU स्कोर काफी बेहतर हो जाएगा।

संभावित टोकनाइजेशन की अनंत संख्या है। उदाहरण के लिए, निम्नलिखित फ्रेंच वाक्य अंग्रेजी से अनुवाद हैं जिनमें मैं 5 अलग-अलग टोकननाइजर लागू करता हूं। नोट: मैंने प्रयोग किया मोसेस (खुला स्रोत, एलजीपीएल लाइसेंस) और Sacre Bleu (खुला स्रोत, अपाचे लाइसेंस 2.0).

ये वही वाक्य हैं, लेकिन चूंकि इन्हें अलग-अलग तरीके से टोकन किया गया है, इसलिए वे संदर्भ अनुवादों से अलग-अलग टोकन से मेल खाएंगे। इन सभी टोकनाइजेशन से अलग-अलग BLEU स्कोर प्राप्त होंगे जबकि अनुवाद समान रहेंगे।

यही कारण है कि अनुवादों पर गणना किए गए दो BLEU स्कोर, जिनके लिए टोकन अलग है, या अज्ञात है, की तुलना नहीं की जा सकती है।

यह वह जगह है अक्सर देखा गया आजकल वैज्ञानिक पत्रों में।

आप टोकननाइजेशन को BLEU के पैरामीटर के रूप में देख सकते हैं। यदि आप पैरामीटर बदलते हैं तो आप मीट्रिक बदल देते हैं। दो अलग-अलग मेट्रिक्स के स्कोर की तुलना नहीं की जा सकती.

जब 2001 में BLEU प्रस्तावित किया गया था, तो मशीनी अनुवाद की गुणवत्ता बहुत अलग थी।

आपको इस अंतर का अंदाज़ा देने के लिए, मैंने 2000 के दशक की फ़्रेंच-से-अंग्रेज़ी मशीनी अनुवाद प्रणाली को फिर से बनाने का प्रयास किया। इस उद्देश्य के लिए, मैंने एक शब्द-आधारित सांख्यिकीय मशीनी अनुवाद प्रणाली का प्रशिक्षण लिया। मैंने इसके साथ किया मोसेस. मैं इस प्रणाली को "सांख्यिकीय एमटी (2001)" कहूंगा।

फिर, मैंने वेनिला ट्रांसफार्मर मॉडल का उपयोग करके एक तंत्रिका मशीन अनुवाद प्रणाली को प्रशिक्षित किया। मैंने इसके साथ किया मैरिएन (खुला स्रोत, एमआईटी लाइसेंस)। मैं इस प्रणाली को "न्यूरल एमटी (2022)" कहूंगा।

उनके द्वारा उत्पन्न अनुवाद इस प्रकार हैं। नोट: मैंने संदर्भ अनुवाद से मेल खाते एन-ग्राम पर प्रकाश डाला है।

जैसा कि अपेक्षित था, सांख्यिकीय एमटी द्वारा उत्पन्न अनुवाद का कोई विशेष अर्थ नहीं है, विशेषकर वाक्य के अंत में। यह न्यूरल एमटी की तुलना में संदर्भ अनुवाद से कम एन-ग्राम को कवर करता है। दूसरी ओर, न्यूरल एमटी द्वारा उत्पन्न अनुवाद बिल्कुल सही (संदर्भ के बिना) दिखता है, लेकिन यह संदर्भ अनुवाद के बिल्कुल समान नहीं है, इसलिए इसे BLEU द्वारा दंडित किया जाएगा।

2001 में, मशीनी अनुवाद प्रणालियों ने ऐसे अनुवाद तैयार किए जो अक्सर अर्थहीन होते थे और स्पष्ट वाक्यविन्यास त्रुटियों के साथ होते थे। विशिष्ट संदर्भ अनुवादों का मिलान न करने के लिए उन्हें उचित रूप से दंडित किया गया था। आजकल, तंत्रिका मशीन अनुवाद अक्सर बहुत धाराप्रवाह अनुवाद उत्पन्न करता है, विशेष रूप से फ्रेंच-अंग्रेजी जैसे "आसान" भाषा जोड़ों के लिए। वे अक्सर सही अनुवाद ढूंढ लेंगे, लेकिन चूंकि कई संभावित सही अनुवाद हैं, संदर्भ के रूप में उपयोग किए जाने वाले सटीक अनुवाद को ढूंढना केवल संयोग से ही हो सकता है।

यहीं पर हम BLEU की सीमा तक पहुँचते हैं जो अनुवाद सही होने पर भी केवल सटीक मिलानों को ही पुरस्कृत करेगा।

BLEU ने कई वर्षों तक मशीनी अनुवाद अनुसंधान में प्रगति का मार्गदर्शन किया है। NAACL 2018 में, BLEU के लेखकों को पुरस्कार मिला समय-परीक्षा पुरस्कार.

BLEU का उपयोग अभी भी AI के कई क्षेत्रों में किया जाता है, लेकिन केवल आदतों के द्वारा। यह अब मशीनी अनुवाद सहित प्राकृतिक भाषा निर्माण कार्यों के लिए कई अन्य मूल्यांकन मेट्रिक्स द्वारा काफी हद तक बेहतर प्रदर्शन कर रहा है सीएचआरएफ, ब्लुर्टया, कोमेट.

बहरहाल, BLEU एक बना हुआ है निदान प्रयोजनों के लिए बहुत अच्छा उपकरण.

चूँकि BLEU का एक सुविख्यात व्यवहार है, यानी, हम जानते हैं कि विशेष अनुवाद कार्यों के लिए BLEU के किस स्तर की अपेक्षा की जानी चाहिए, इसका उपयोग मशीन अनुवाद प्रणाली की प्रशिक्षण पाइपलाइन या इसके डेटा प्रोसेसिंग में बग और अन्य समस्याओं को तुरंत पहचानने के लिए किया जा सकता है।

किसी भी स्थिति में, BLEU छोटे पाठों पर उपयोग नहीं किया जाना चाहिए. व्यवहार में, मशीनी अनुवाद व्यवसायी हमेशा 1,000 से अधिक वाक्यों वाले पाठों पर BLEU चलाते हैं। BLEU का उद्देश्य दस्तावेज़ अनुवाद का मूल्यांकन करना है। इसका उपयोग वाक्य अनुवाद का मूल्यांकन करने के लिए नहीं किया जाना चाहिए।

जहां तक BLEU के कार्यान्वयन का सवाल है, कई सार्वजनिक रूप से उपलब्ध हैं। हगिंग फेस का अपना कार्यान्वयन है पुस्तकालय का मूल्यांकन करें. एनएलटीके BLEU भी लागू करता है। वहाँ भी है मल्टी-ब्लू.पर्ल मूसा परियोजना में स्क्रिप्ट। ध्यान दें कि BLEU के ये सभी कार्यान्वयन अलग-अलग हैं और तुलनीय परिणाम नहीं देंगे। मेरी व्यक्तिगत सिफ़ारिश है कि इसके मूल कार्यान्वयन का उपयोग करें Sacre Bleu चूँकि यह उपकरण BLEU स्कोर की प्रतिलिपि प्रस्तुत करने योग्यता और तुलनीयता की गारंटी देने के लिए था।

और यदि आप अपने अगले कार्य में BLEU का उपयोग करने की योजना बना रहे हैं, तो अपने परिणामों के सांख्यिकीय महत्व का परीक्षण करने की आवश्यकता को नज़रअंदाज़ न करें।

मेरे काम का समर्थन करने का सबसे अच्छा तरीका मेरे लिंक का उपयोग करके एक माध्यम सदस्य बनना है:

यदि आप पहले से ही सदस्य हैं और इस कार्य में सहयोग देना चाहते हैं, तो बस मीडियम पर मुझे फॉलो करो.

BLEU: अन्य युग से एक गलत समझा गया मीट्रिक, स्रोत https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37?source=rss—-7f60cf5620c9—4 से https://towardsdatascience द्वारा पुनर्प्रकाशित। com/फ़ीड

<!–

समय टिकट: नवम्बर 4/2022नवम्बर 6/2022