मेटा 'ट्यूलिप' पेश करता है, एक बाइनरी सीरियलाइजेशन प्रोटोकॉल जो एआई और मशीन लर्निंग वर्कलोड के लिए प्रोटोकॉल विश्वसनीयता को संबोधित करके डेटा स्कीमेटाइजेशन के साथ सहायता करता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मेटा स्कीमा विकास का समर्थन करने वाले बाइनरी सीरियलाइजेशन प्रोटोकॉल 'ट्यूलिप' का परिचय देता है। यह एक साथ प्रोटोकॉल विश्वसनीयता और अन्य मुद्दों को संबोधित करता है और हमें डेटा स्कीमेटाइजेशन में सहायता करता है। ट्यूलिप के कई विरासत प्रारूप हैं। इसलिए, इसका उपयोग मेटा के डेटा प्लेटफॉर्म में किया जाता है और इसके प्रदर्शन और दक्षता में काफी वृद्धि देखी गई है। मेटा का डेटा प्लेटफ़ॉर्म कई विषम सेवाओं से बना है, जैसे वेयरहाउस डेटा स्टोरेज और विभिन्न रीयल-टाइम सिस्टम बड़ी मात्रा में डेटा का आदान-प्रदान करते हैं और सेवा एपीआई के माध्यम से आपस में संचार करते हैं। जैसे-जैसे मेटा के सिस्टम में एआई और मशीन लर्निंग एमएल-संबंधित वर्कलोड की संख्या बढ़ती है, जो इन एमएल मॉडल को प्रशिक्षित करने के लिए डेटा का उपयोग करते हैं, हमारे डेटा लॉगिंग सिस्टम को कुशल बनाने के लिए लगातार काम करना आवश्यक है। मेटा के पैमाने पर डेटा के लिए एक मंच बनाने में डेटा का योजनाबद्धकरण एक बड़ी भूमिका निभाता है। इन प्रणालियों को इस ज्ञान के आधार पर डिज़ाइन किया गया है कि प्रत्येक निर्णय और ट्रेड-ऑफ विश्वसनीयता, डेटा प्रीप्रोसेसिंग दक्षता, प्रदर्शन और इंजीनियर के डेवलपर अनुभव को प्रभावित करता है। डेटा इन्फ्रास्ट्रक्चर के लिए क्रमांकन प्रारूप बदलना एक बड़ा दांव है लेकिन लंबे समय में लाभ प्रदान करता है जो समय के साथ प्लेटफॉर्म को विकसित करता है।

डेटा एनालिटिक्स लॉगिंग लाइब्रेरी वेब टियर और आंतरिक सेवाओं में मौजूद है, और यह Scribe- मेटा द्वारा उपयोग की जाने वाली एक टिकाऊ संदेश कतार प्रणाली का उपयोग करके विश्लेषणात्मक और परिचालन डेटा लॉगिंग के लिए भी जिम्मेदार है। डेटा को स्क्राइब से पढ़ा और ग्रहण किया जाता है, जिसमें डेटा प्लेटफ़ॉर्म अंतर्ग्रहण सेवा और रीयल-टाइम प्रोसेसिंग सिस्टम भी शामिल हैं। डेटा एनालिटिक्स रीडिंग लाइब्रेरी डेटा को डिसेरियलाइज़ करने और इसे एक संरचित पेलोड में रीहाइड्रेट करने में मदद करती है। मेटा में हजारों इंजीनियरों द्वारा हर महीने लॉगिंग स्कीमा बनाए जाते हैं, अपडेट किए जाते हैं और हटा दिए जाते हैं, और ये लॉगिंग स्कीमा डेटा पेटाबाइट्स में प्रवाहित होते हैं और हर दिन स्क्राइब पर होते हैं।

स्कीमेटाइजेशन यह सुनिश्चित करने के लिए आवश्यक है कि (डी) सीरिएलाइज़र के संस्करण के आधार पर अतीत, वर्तमान या भविष्य में लॉग किए गए किसी भी संदेश को किसी भी समय अत्यंत निष्ठा के साथ विश्वसनीय रूप से (डी) क्रमबद्ध किया जा सकता है और कोई डेटा हानि नहीं होती है। पश्चगामी और अग्रगामी अनुकूलता के माध्यम से सुरक्षित स्कीमा विकास इस विशेषता को दिया गया नाम है। लेख का मुख्य फोकस ऑन-वायर क्रमांकन प्रारूप पर है जिसका उपयोग डेटा को एन्कोड करने के लिए किया जाता है जिसे अंततः डेटा प्लेटफ़ॉर्म द्वारा संसाधित किया जाता है। पहले उपयोग किए गए दो क्रमांकन प्रारूपों की तुलना में, हाइव टेक्स्ट डिलिमिटेड और JSON क्रमांकन, नया एन्कोडिंग प्रारूप अधिक कुशल है, जिसके लिए डेटा को (डी) क्रमबद्ध करने के लिए 40 से 85 प्रतिशत कम बाइट्स और 50 से 90 प्रतिशत कम CPU चक्र की आवश्यकता होती है।

लॉगिंग लाइब्रेरी के अनुप्रयोगों को विभिन्न भाषाओं जैसे C++, Java, Haskell, Hack, और Python में लिखा जाता है ताकि लॉगिंग स्कीमा के अनुसार पेलोड को क्रमबद्ध किया जा सके, और इन लॉगिंग स्कीमा को व्यावसायिक आवश्यकताओं के अनुसार परिभाषित किया जाता है और आसान डिलीवरी के लिए Scribe को लिखा जाता है। . लॉगिंग लाइब्रेरी कोड जनरेटेड और जेनरिक नामक दो स्वादों में उपलब्ध है। प्रकार-सुरक्षित उपयोग के लिए कोड जेनरेटेड स्वाद में, प्रत्येक फ़ील्ड के लिए स्थिर रूप से टाइप किए गए सेटर्स उत्पन्न होते हैं। इष्टतम दक्षता के लिए, पोस्ट-प्रोसेसिंग और क्रमांकन कोड भी उत्पन्न होता है। जबकि गतिशील रूप से टाइप किए गए पेलोड के (डी) क्रमांकन करने के लिए सामान्य स्वाद में, तुलिब के नाम के साथ एक सी ++ पुस्तकालय की पेशकश की जाती है। डायनेमिक टाइपिंग का उपयोग करने वाले संदेश को लॉगिंग स्कीम के अनुसार क्रमबद्ध किया जाता है। क्योंकि यह एप्लिकेशन बाइनरी को पुनर्निर्माण और पुनर्वितरण की आवश्यकता के बिना संदेशों के क्रमांकन (डी) की अनुमति देता है, यह विधि कोड-जनित मोड की तुलना में अधिक लचीली है।

लॉगिंग लाइब्रेरी कई बैक-एंड सिस्टम को डेटा भेजती है, जिनमें से प्रत्येक ने परंपरागत रूप से अपने स्वयं के क्रमांकन नियमों को निर्दिष्ट किया है और पेलोड को क्रमबद्ध करने के लिए इन स्वरूपों का उपयोग करते समय विभिन्न समस्याओं का सामना करना पड़ता है, और वे हैं

मानकीकरण: अतीत में क्रमांकन प्रारूपों का कोई मानकीकरण नहीं था; प्रत्येक डाउनस्ट्रीम सिस्टम का अपना प्रारूप था जिससे रखरखाव और विकास लागत में वृद्धि हुई।
विश्वसनीयता: डिसेरिएलाइज़ेशन विश्वसनीयता बनाए रखने के लिए नए कॉलम केवल अंत में जोड़े जा सकते हैं। किसी मौजूदा कॉलम के बीच में एक फ़ील्ड डालने या कॉलम को हटाने का कोई भी प्रयास निम्नलिखित सभी कॉलमों को स्थानांतरित करने का कारण बनता है, जिससे पंक्ति को डीरिएरलाइज करना असंभव हो जाता है, और अद्यतन स्कीमा वास्तविक समय में पाठकों को वितरित की जाती है।
क्षमता: बाइनरी (डी) क्रमांकन की तुलना में, हाइव टेक्स्ट डिलिमिटेड और JSON प्रोटोकॉल दोनों टेक्स्ट-आधारित और अक्षम हैं।
शुद्धता: हाइव टेक्स्ट जैसे पाठ-आधारित प्रोटोकॉल के लिए फ़ील्ड सीमांकक और रेखा सीमांकक को एस्केप और अनएस्केप किया जाना चाहिए। हर लेखक और पाठक ऐसा करता है, जिससे पुस्तकालय के लेखकों पर दबाव बढ़ता है। पुराने या दोषपूर्ण कार्यान्वयन से निपटना जो केवल इन पात्रों की उपस्थिति की तलाश करते हैं और परेशानी वाले पात्रों से बचने के बजाय पूरे संदेश को अस्वीकार करते हैं, मुश्किल है।
आगे और पीछे की अनुकूलता: उपभोक्ता द्वारा देखे जाने वाले संस्करण से पहले और बाद में सीरियलाइज़ेशन स्कीमा द्वारा क्रमबद्ध किए गए पेलोड का उपभोग करना वांछित है। हाइव टेक्स्ट प्रोटोकॉल यह आश्वासन प्रदान नहीं करता है।
मेटाडाटा: पेलोड में मेटाडेटा सम्मिलन हाइव टेक्स्ट सीरियलाइज़ेशन द्वारा तुच्छ रूप से समर्थित नहीं है। डाउनस्ट्रीम सिस्टम के लिए मेटाडेटा की उपस्थिति से लाभ उठाने वाली सुविधाओं को लागू करने के लिए, उस डेटा का प्रचार आवश्यक है।

ट्यूलिप हमारी मूलभूत समस्या, विश्वसनीयता के मुद्दे को एक सुरक्षित स्कीमा विकास प्रारूप की आपूर्ति करके हल करता है जो अलग-अलग परिनियोजन चक्रों के साथ सेवाओं में पिछड़ा और आगे-संगत दोनों है। ट्यूलिप ने इन सभी समस्याओं को एक ही बार में हल कर दिया, जिससे यह उपलब्ध अन्य विकल्पों की तुलना में बेहतर निवेश बन गया।

थ्रिफ्ट से TCompactProtocol का उपयोग ट्यूलिप क्रमांकन प्रोटोकॉल में एक पेलोड को क्रमबद्ध करने के लिए किया जाता है, जो एक बाइनरी क्रमांकन प्रोटोकॉल है। फ़ील्ड्स को आईडी के साथ क्रमांकित किया जाता है जिस तरह से एक इंजीनियर से उम्मीद की जाती है जब आईडी को थ्रिफ्ट स्ट्रक्चर में बदल दिया जाता है। जब इंजीनियर लॉगिंग स्कीमा बनाते हैं तो फ़ील्ड नामों और प्रकारों की एक सूची परिभाषित करते हैं, और फ़ील्ड आईडी निर्दिष्ट इंजीनियरों के बजाय डेटा प्लेटफ़ॉर्म प्रबंधन मॉड्यूल द्वारा प्रबंधित की जाती हैं। सीरियलाइज़ेशन स्कीमा रिपॉजिटरी में लॉगिंग स्कीमा का सीरियलाइज़ेशन स्कीमा में अनुवाद होता है। फ़ील्ड नाम, फ़ील्ड प्रकार, संबंधित लॉगिंग स्कीमा के लिए फ़ील्ड आईडी, और फ़ील्ड इतिहास की सूची क्रमांकन कॉन्फ़िगरेशन में संग्रहीत की जाती हैं। जब कोई इंजीनियर लॉगिंग स्कीमा को अपडेट करना चाहता है, तो क्रमांकन स्कीमा पर एक ट्रांजेक्शनल ऑपरेशन किया जाता है।

संदर्भ: https://engineering.fb.com/2022/11/09/developer-tools/tulip-schematizing-metas-data-platform/

कृपया ज्वाइन करना न भूलें हमारा एमएल सब्रेडिट

अवंती येलुरी IIT खड़गपुर में दोहरी डिग्री की छात्रा है। विभिन्न उद्योगों में इसके कई अनुप्रयोगों के साथ-साथ इसकी अत्याधुनिक तकनीकी प्रगति और दैनिक जीवन में इन्हें कैसे नियोजित किया जाता है, इसके कारण डेटा साइंस में उनकी गहरी रुचि है।

<!–

समय टिकट: नवम्बर 12/2022नवम्बर 14/2022