डेटा लिफाफा विश्लेषण ट्यूटोरियल प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

डेटा एनवलपमेंट एनालिसिस ट्यूटोरियल

डेटा एनवलपमेंट एनालिसिस, जिसे डीईए के रूप में भी जाना जाता है, फ्रंटियर विश्लेषण करने के लिए एक गैर-पैरामीट्रिक विधि है। यह कई निर्णय लेने वाली इकाइयों की दक्षता का अनुमान लगाने के लिए रैखिक प्रोग्रामिंग का उपयोग करता है और इसका उपयोग आमतौर पर उत्पादन, प्रबंधन और अर्थशास्त्र में किया जाता है। तकनीक पहले प्रस्तावित की गई थी चारेन्स, कूपर और रोड्स 1978 में और तब से यह उत्पादन की सीमाओं का आकलन करने के लिए एक मूल्यवान उपकरण बन गया।

अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। जावा में डेटा एनवलपमेंट एनालिसिस के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.algorithms.dea देखें।

जब मैंने पहली बार 5-6 साल पहले विधि का सामना किया था, तो मैं एल्गोरिथ्म की मौलिकता, इसकी सादगी और इसके द्वारा उपयोग किए जाने वाले विचारों की चतुराई से चकित था। मैं यह देखकर और भी चकित हो गया कि तकनीक ने अपने सामान्य अनुप्रयोगों (वित्तीय, संचालन अनुसंधान आदि) के बाहर अच्छा काम किया है क्योंकि इसे ऑनलाइन मार्केटिंग, सर्च इंजन रैंकिंग में और कंपोजिट मेट्रिक्स बनाने के लिए सफलतापूर्वक लागू किया जा सकता है। इसके बावजूद, आज डीईए को व्यापार के संदर्भ में लगभग विशेष रूप से चर्चा की जाती है। इसीलिए, इस लेख में, मैं डीईए के पीछे बुनियादी विचारों और गणितीय ढांचे को कवर करूंगा और अगले पोस्ट में मैं आपको वेब अनुप्रयोगों पर एल्गोरिथ्म के कुछ उपन्यास अनुप्रयोगों को दिखाऊंगा।

क्यों डेटा विकास विश्लेषण दिलचस्प है?

डेटा एनवलपमेंट एनालिसिस एक ऐसी विधि है जो हमें अपनी विशेषताओं (वजन, आकार, लागत, राजस्व और अन्य मैट्रिक्स या KPI) के आधार पर रिकॉर्ड (स्टोर, कर्मचारियों, कारखानों, वेबपेजों, मार्केटिंग अभियानों आदि) की तुलना करने और सक्षम करने में सक्षम बनाती है। सुविधाओं का महत्व या भार। इस तकनीक का सबसे दिलचस्प हिस्सा यह है कि यह हमें कई विशेषताओं से मिलकर रिकॉर्ड की तुलना करने की अनुमति देता है जिसमें माप की पूरी तरह से अलग-अलग इकाइयाँ होती हैं। इसका मतलब है कि हमारे पास किलोमीटर, किलोग्राम या मौद्रिक इकाइयों में मापी गई विशेषताओं के साथ रिकॉर्ड हो सकते हैं और फिर भी उनकी तुलना, रैंक करने और सबसे अच्छा / सबसे खराब और औसत प्रदर्शन करने वाले रिकॉर्ड खोजने में सक्षम हो सकते हैं। दिलचस्प लगता है? पढ़ते रहिये।

डेटा एनवेलपमेंट एनालिसिस का वर्णन और मान्यताएँ

डेटा-आवरण-विश्लेषण-ग्राफ
जैसा कि हमने पहले चर्चा की थी, डीईए एक विधि है जिसे व्यापार में उत्पादकता को मापने के लिए आविष्कार किया गया था। इस प्रकार इसके कई विचार इस संदर्भ में उत्पादकता को मापने के तरीके से आते हैं। विधि की मुख्य विशेषताओं में से एक रिकॉर्ड विशेषताओं को दो श्रेणियों में अलग करना है: इनपुट और आउटपुट। उदाहरण के लिए यदि हम एक कार की दक्षता को मापते हैं, तो हम कह सकते हैं कि इनपुट पेट्रोल का लीटर है और आउटपुट किलोमीटर की संख्या है जो यह यात्रा करता है।

डीईए में, सभी विशेषताएं सकारात्मक होनी चाहिए और यह माना जाता है कि उनका मूल्य जितना अधिक होगा, उनका इनपुट / आउटपुट उतना ही अधिक होगा। इसके अतिरिक्त डाटा एनवेलपमेंट एनालिसिस मानता है कि सुविधाओं को गैर-ऋणात्मक भार के भारित योग के रूप में रैखिक रूप से जोड़ा जा सकता है और इनपुट और आउटपुट के बीच एक अनुपात बनता है जो प्रत्येक रिकॉर्ड की दक्षता को मापेगा। कुशल होने के लिए रिकॉर्ड के लिए हमें प्रदान किए गए इनपुट के सापेक्ष "अच्छा" आउटपुट देना होगा। दक्षता को आउटपुट और इनपुट के बीच के अनुपात से मापा जाता है और फिर अन्य रिकॉर्ड के अनुपात की तुलना में।

डीईए के पीछे सरल विचार

अब तक जो हमने कवर किया वह एक सामान्य ज्ञान / अभ्यास है। हम अपने रिकॉर्ड को रैंक करने के लिए इनपुट और आउटपुट, भारित रकम और अनुपात का उपयोग करते हैं। डीईए का चतुर विचार इस तरह से है कि सुविधाओं के वजन की गणना की जाती है। विश्लेषण चलाने से पहले सुविधाओं के भार को निर्धारित करने और उनके महत्व पर निर्णय लेने के बजाय, डेटा एनवलपमेंट विश्लेषण उन्हें डेटा से गणना करता है। इसके अलावा वजन हर रिकॉर्ड के लिए समान नहीं हैं!

यहां बताया गया है कि डीईए कैसे वज़न का चयन करता है: हम उचित सुविधा वेट का चयन करके हर रिकॉर्ड के अनुपात को अधिकतम करने की कोशिश करते हैं; एक ही समय में हालांकि हमें यह सुनिश्चित करना चाहिए कि यदि हम अन्य सभी रिकॉर्ड के अनुपात की गणना करने के लिए समान भार का उपयोग करते हैं, तो उनमें से कोई भी 1 से बड़ा नहीं होगा।

यह विचार शुरुआत में थोड़ा अजीब लगता है। क्या इससे अलग-अलग भारित अनुपातों की गणना नहीं होगी? इसका जवाब है हाँ। क्या इसका मतलब यह नहीं है कि हम वास्तव में हर रिकॉर्ड के लिए अनुपातों की अलग-अलग गणना करते हैं? जवाब फिर से हाँ है। यह कैसे काम करता है? इसका उत्तर सरल है: हर रिकॉर्ड के लिए, इसकी विशेषताओं को देखते हुए हम "आदर्श स्थिति" (भार) खोजने की कोशिश करते हैं, जिसमें इसका अनुपात जितना संभव हो उतना अधिक होगा और इस प्रकार इसे यथासंभव प्रभावी बनाया जाएगा। लेकिन एक ही समय में, इस "आदर्श स्थिति" को देखते हुए अन्य रिकॉर्ड के आउटपुट / इनपुट अनुपात में से कोई भी 1 से बड़ा नहीं होना चाहिए, जिसका अर्थ है कि वे 100% से अधिक प्रभावी नहीं हो सकते हैं! एक बार जब हम प्रत्येक "आदर्श स्थिति" के तहत सभी रिकॉर्ड के अनुपात की गणना करते हैं, तो हम उन्हें रैंक करने के लिए उनके अनुपात का उपयोग करते हैं।

इसलिए डीईए के मुख्य विचार को निम्नलिखित में अभिव्यक्त किया जा सकता है: “उस आदर्श स्थिति का पता लगाएं जिसमें हम प्रत्येक रिकॉर्ड की विशेषताओं के आधार पर सर्वश्रेष्ठ अनुपात स्कोर प्राप्त कर सकते हैं। फिर प्रत्येक रिकॉर्ड के इस आदर्श अनुपात की गणना करें और उनकी प्रभावशीलता की तुलना करने के लिए इसका उपयोग करें ”।

एक उदाहरण देखते हैं

आइए एक उदाहरण देखें जहां हम डीईए का उपयोग कर सकते हैं।

मान लें कि हम कई विशेषताओं के आधार पर किसी विशेष श्रृंखला के सुपरमार्केट स्टोर की दक्षता का मूल्यांकन करने में रुचि रखते हैं: कर्मचारियों की कुल संख्या, वर्ग मीटर में स्टोर का आकार, उनकी बिक्री की मात्रा और उनके ग्राहकों की संख्या कि वे हर महीने औसतन सेवा करते हैं। यह स्पष्ट हो जाता है कि सबसे कुशल स्टोर खोजने के लिए हमें कई विशेषताओं के साथ रिकॉर्ड की तुलना करने की आवश्यकता होती है।

डीईए लागू करने के लिए हमें परिभाषित करना चाहिए कि हमारा इनपुट और आउटपुट क्या है। इस मामले में आउटपुट स्पष्ट रूप से बिक्री की मात्रा और ग्राहकों की संख्या है जो वे सेवा करते हैं। इनपुट कर्मचारियों की संख्या और स्टोर का आकार है। यदि हम डीईए चलाते हैं, तो हम आदर्श भार (जैसा कि ऊपर चर्चा की गई है) के तहत हर दुकान के लिए इनपुट अनुपात के आउटपुट का अनुमान लगाएंगे। एक बार जब हमारे पास उनके अनुपात होंगे तो हम उन्हें उनकी दक्षता के अनुसार रैंक देंगे।

यह गणित का समय है!

अब जब हमें डीईए कैसे काम करता है इसका एक अंतर्ज्ञान मिला, यह गणित में खुदाई करने का समय है।

एक्स इनपुट और वाई आउटपुट के साथ एक विशेष रिकॉर्ड i की दक्षता अनुपात (सकारात्मक मान के साथ दोनों फ़ीचर वैक्टर) निम्न सूत्र का उपयोग करके अनुमान लगाया गया है:

डीईए2

जहां u और v रिकॉर्ड के प्रत्येक आउटपुट और इनपुट का वजन है, वहीं आउटपुट फीचर्स की संख्या है और मी इनपुट फीचर्स की संख्या है।

मैं एक विशेष रिकॉर्ड के लिए सबसे अच्छा / आदर्श वजन खोजने की समस्या निम्नानुसार तैयार की जा सकती है:

डीईए4
डीईए6
डीईए8

फिर से ऊपर का वजन और रिकॉर्ड की दक्षता को अधिकतम करने का गणितीय तरीका है, जो कि रिकॉर्ड i की दक्षता को अधिकतम करता है, बशर्ते कि उन भारों को किसी भी अन्य रिकॉर्ड को 100% से अधिक कुशल नहीं बनाया जाएगा।

इस समस्या को हल करने के लिए हमें रैखिक प्रोग्रामिंग का उपयोग करना चाहिए। दुर्भाग्य से लीनियर प्रोग्रामिंग हमें अंशों का उपयोग करने की अनुमति नहीं देता है और इस प्रकार हमें समस्या के सूत्रीकरण को बदलने की आवश्यकता है:

डीईए10
डीईए12
डीईए14
डीईए8

हमें इस बात पर जोर देना चाहिए कि उपरोक्त रैखिक प्रोग्रामिंग समस्या हमें रिकॉर्ड i के लिए सर्वश्रेष्ठ भार प्रदान करेगी और उन इष्टतम भारों के तहत इसकी दक्षता की गणना करेगी। हमारे डेटासेट में हर रिकॉर्ड के लिए एक ही दोहराया जाना चाहिए। इसलिए यदि हमारे पास n रिकॉर्ड हैं, तो हमें n अलग-अलग रैखिक समस्याओं को हल करना होगा। यहां बताया गया है कि DEA कैसे काम करता है:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

डेटा एनवलपमेंट एनालिसिस की सीमाएं

डीईए एक बेहतरीन तकनीक है लेकिन इसकी सीमाएं हैं। आपको यह समझना चाहिए कि DEA एक ब्लैक बॉक्स की तरह है। चूंकि प्रत्येक रिकॉर्ड के प्रभावशीलता अनुपात में उपयोग किए जाने वाले भार अलग-अलग हैं, यह समझाने की कोशिश कर रहा है कि प्रत्येक स्कोर की गणना कैसे और क्यों की गई है, यह व्यर्थ है। आमतौर पर हम प्रभावशीलता स्कोर के वास्तविक मूल्यों के बजाय रिकॉर्ड की रैंकिंग पर ध्यान केंद्रित करते हैं। यह भी ध्यान दें कि चरम सीमा के अस्तित्व के कारण स्कोर बहुत कम हो सकते हैं।

ध्यान रखें कि डीईए अनुपातों का अनुमान लगाने के लिए सुविधाओं के रैखिक संयोजनों का उपयोग करता है। इस प्रकार यदि उन्हें हमारे अनुप्रयोग में रैखिक रूप से जोड़ना उचित नहीं है, तो हमें सुविधाओं पर परिवर्तनों को लागू करना चाहिए और उन्हें रैखिक रूप से संयोजित करना संभव बनाना चाहिए। इस तकनीक का एक और दोष यह है कि हमें कई रैखिक प्रोग्रामिंग समस्याओं को रिकॉर्ड की संख्या के रूप में हल करना होगा, कुछ ऐसा जो बहुत सारे कम्प्यूटेशनल संसाधनों की आवश्यकता है।

डीईए का सामना करने वाली एक और समस्या यह है कि यह उच्च आयामी डेटा के साथ अच्छी तरह से काम नहीं करता है। डीईए का उपयोग करने के लिए आयामों की संख्या d = m + s टिप्पणियों की संख्या से कम महत्वपूर्ण होनी चाहिए। जब डी बहुत करीब या बड़ा होता है तो डीएए चलाना उपयोगी परिणाम प्रदान नहीं करता है, क्योंकि अधिकांश संभावनाएं सभी रिकॉर्ड इष्टतम पाए जाएंगे। ध्यान दें कि जैसा कि आप एक नया आउटपुट चर (आयाम) जोड़ते हैं, इस आयाम में अधिकतम मूल्य वाले सभी रिकॉर्ड इष्टतम पाए जाएंगे।

अंत में हमें ध्यान देना चाहिए कि एल्गोरिथ्म के सामान्य रूप में, डीईए में सुविधाओं के भार का अनुमान डेटा से लगाया जाता है और इस प्रकार वे उन विशेषताओं के महत्व के बारे में किसी भी पूर्व सूचना का उपयोग नहीं करते हैं जो हमारी समस्या में हो सकती हैं (बेशक इस जानकारी को हमारी रैखिक समस्या में बाधा के रूप में शामिल करना संभव है)। इसके अतिरिक्त जिन दक्षता स्कोर की गणना की जाती है, वे वास्तव में प्रत्येक रिकॉर्ड की ऊपरी सीमा दक्षता अनुपात हैं क्योंकि उनकी गणना "आदर्श स्थितियों" के तहत की जाती है। इसका मतलब यह है कि डीईए एक अच्छा समाधान हो सकता है जब सुविधाओं के महत्व के बारे में कोई धारणा बनाना संभव नहीं है लेकिन अगर हमारे पास कोई पूर्व सूचना है या हम उनके महत्व को निर्धारित कर सकते हैं तो वैकल्पिक तकनीकों का उपयोग करने की सलाह दी जाती है।

अगले लेख में, मैं आपको दिखाऊंगा कि किस तरह से एक कार्यान्वयन विकसित करना है JAVA में डेटा एनवलपमेंट एनालिसिस और हम सोशल मीडिया नेटवर्क में वेब पेजों और लेखों की लोकप्रियता का अनुमान लगाने के लिए विधि का उपयोग करेंगे।

अगर आपको यह लेख पसंद आया, तो इसे ट्विटर या फेसबुक पर साझा करने के लिए कुछ समय दें। 🙂

समय टिकट:

से अधिक दातुनॉक्स