सिंथेटिक डेटा की गुणवत्ता का मूल्यांकन कैसे करें - निष्ठा, उपयोगिता और गोपनीयता के परिप्रेक्ष्य से मापना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एक तेजी से डेटा-केंद्रित दुनिया में, उद्यमों को मूल्यवान भौतिक जानकारी एकत्र करने और उस जानकारी को उत्पन्न करने पर ध्यान देना चाहिए जिसकी उन्हें आवश्यकता है लेकिन आसानी से प्राप्त नहीं हो सकती है। एनालिटिक्स और आर्टिफिशियल इंटेलिजेंस (एआई) में इनोवेशन के लिए डेटा एक्सेस, रेगुलेशन और कंप्लायंस घर्षण के बढ़ते स्रोत हैं।

अत्यधिक विनियमित क्षेत्रों जैसे वित्तीय सेवा, स्वास्थ्य सेवा, जीवन विज्ञान, ऑटोमोटिव, रोबोटिक्स और विनिर्माण के लिए समस्या और भी बड़ी है। यह सिस्टम डिजाइन, डेटा शेयरिंग (आंतरिक और बाहरी), मुद्रीकरण, एनालिटिक्स और मशीन लर्निंग (एमएल) में बाधाओं का कारण बनता है।

सिंथेटिक डेटा एक ऐसा उपकरण है जो कई डेटा चुनौतियों, विशेष रूप से एआई और एनालिटिक्स मुद्दों जैसे गोपनीयता सुरक्षा, नियामक अनुपालन, पहुंच, डेटा की कमी और पूर्वाग्रह को संबोधित करता है। इसमें डेटा साझाकरण और डेटा का समय (और इसलिए बाजार का समय) भी शामिल है।

सिंथेटिक डेटा एल्गोरिथम से उत्पन्न होता है। यह स्रोत डेटा से सांख्यिकीय गुण और पैटर्न को प्रतिबिंबित करता है। लेकिन महत्वपूर्ण रूप से इसमें कोई संवेदनशील, निजी या व्यक्तिगत डेटा बिंदु शामिल नहीं है।

आप सिंथेटिक डेटा के प्रश्न पूछते हैं और वही उत्तर प्राप्त करते हैं जो आप वास्तविक डेटा से प्राप्त करते हैं।

हमारे में पहले पोस्ट, हमने क्रेडिट फ्रॉड मॉडल प्रशिक्षण को बढ़ाने के लिए सारणीबद्ध डेटासेट उत्पन्न करने के लिए जनरेटिव एडवरसैरियल नेटवर्क (जीएएनएस) जैसे प्रतिकूल नेटवर्क का उपयोग करने का प्रदर्शन किया।

व्यावसायिक हितधारकों के लिए अपने एमएल और एनालिटिक्स प्रोजेक्ट्स के लिए सिंथेटिक डेटा को अपनाने के लिए, यह सुनिश्चित करना अनिवार्य है कि उत्पन्न सिंथेटिक डेटा उद्देश्य और अपेक्षित डाउनस्ट्रीम अनुप्रयोगों के लिए उपयुक्त होगा, बल्कि उनके लिए गुणवत्ता को मापने और प्रदर्शित करने में भी सक्षम होगा। उत्पन्न डेटा।

गोपनीयता को बनाए रखने में बढ़ते कानूनी और नैतिक दायित्वों के साथ, सिंथेटिक डेटा की शक्तियों में से एक इसके संश्लेषण के दौरान संवेदनशील और मूल जानकारी को हटाने की क्षमता है। इसलिए, गुणवत्ता के अलावा, हमें निजी जानकारी के लीक होने के जोखिम का मूल्यांकन करने के लिए मेट्रिक्स की आवश्यकता है, यदि कोई हो, और यह आकलन करें कि पीढ़ी की प्रक्रिया किसी भी मूल डेटा को "याद" या कॉपी नहीं कर रही है।

यह सब प्राप्त करने के लिए, हम सिंथेटिक डेटा की गुणवत्ता को आयामों में मैप कर सकते हैं, जो उपयोगकर्ताओं, हितधारकों और उत्पन्न डेटा को बेहतर ढंग से समझने में हमारी सहायता करते हैं।

सिंथेटिक डेटा गुणवत्ता मूल्यांकन के तीन आयाम

उत्पन्न सिंथेटिक डेटा को तीन प्रमुख आयामों के विरुद्ध मापा जाता है:

निष्ठा
उपयोगिता
निजता

किसी भी उत्पन्न सिंथेटिक डेटा के बारे में ये कुछ प्रश्न हैं जिनका उत्तर सिंथेटिक डेटा गुणवत्ता रिपोर्ट द्वारा दिया जाना चाहिए:

मूल प्रशिक्षण सेट की तुलना में यह सिंथेटिक डेटा कितना समान है?
यह सिंथेटिक डेटा हमारे डाउनस्ट्रीम एप्लिकेशन के लिए कितना उपयोगी है?
क्या मूल प्रशिक्षण डेटा से सिंथेटिक डेटा में कोई जानकारी लीक हुई है?
क्या कोई डेटा जिसे वास्तविक दुनिया में संवेदनशील माना जाता है (मॉडल के प्रशिक्षण के लिए उपयोग नहीं किए गए अन्य डेटा सेट से) अनजाने में हमारे मॉडल द्वारा संश्लेषित किया गया है?

अंतिम उपयोगकर्ताओं के लिए इनमें से प्रत्येक आयाम का अनुवाद करने वाली मीट्रिक कुछ हद तक लचीली होती हैं। आखिरकार, उत्पन्न होने वाला डेटा वितरण, आकार और व्यवहार के संदर्भ में भिन्न हो सकता है। उन्हें समझना और व्याख्या करना भी आसान होना चाहिए।

अंततः, मेट्रिक्स पूरी तरह से डेटा-चालित होने चाहिए, और किसी पूर्व ज्ञान या डोमेन-विशिष्ट जानकारी की आवश्यकता नहीं होनी चाहिए। हालांकि, यदि उपयोगकर्ता किसी विशिष्ट व्यावसायिक डोमेन पर लागू होने वाले विशिष्ट नियमों और बाधाओं को लागू करना चाहता है, तो उन्हें यह सुनिश्चित करने के लिए संश्लेषण प्रक्रिया के दौरान उन्हें परिभाषित करने में सक्षम होना चाहिए कि डोमेन-विशिष्ट निष्ठा पूरी हो गई है।

हम इनमें से प्रत्येक मीट्रिक को निम्नलिखित अनुभागों में अधिक विस्तार से देखते हैं।

निष्ठा को समझने के लिए मेट्रिक्स

किसी भी डेटा विज्ञान परियोजना में, हमें यह समझना चाहिए कि क्या एक निश्चित नमूना जनसंख्या उस समस्या के लिए प्रासंगिक है जिसे हम हल कर रहे हैं। इसी तरह, उत्पन्न सिंथेटिक डेटा की प्रासंगिकता का आकलन करने की प्रक्रिया के लिए, हमें इसका मूल्यांकन करना चाहिए निष्ठा मूल की तुलना में।

इन मेट्रिक्स के दृश्य प्रतिनिधित्व से उन्हें समझना आसान हो जाता है। हम स्पष्ट कर सकते हैं कि क्या प्रमुखता और श्रेणियों के अनुपात का सम्मान किया गया था, विभिन्न चर के बीच सहसंबंध रखा गया था, और इसी तरह।

डेटा को विज़ुअलाइज़ करने से न केवल सिंथेटिक डेटा की गुणवत्ता का मूल्यांकन करने में मदद मिलती है, बल्कि डेटा की बेहतर समझ के लिए डेटा विज्ञान जीवनचक्र के शुरुआती चरणों में से एक के रूप में भी फिट बैठता है।

आइए कुछ फ़िडेलिटी मेट्रिक्स के बारे में अधिक विस्तार से जानें।

खोजपूर्ण सांख्यिकीय तुलना

खोजपूर्ण सांख्यिकीय तुलनाओं के भीतर, मूल और सिंथेटिक डेटासेट की विशेषताओं को प्रमुख सांख्यिकीय उपायों का उपयोग करके खोजा जाता है, जैसे कि माध्य, माध्यिका, मानक विचलन, विशिष्ट मान, लापता मान, मिनिमा, मैक्सिमा, निरंतर विशेषताओं के लिए चतुर्थक श्रेणी, और संख्या प्रति श्रेणी रिकॉर्ड की संख्या, प्रति श्रेणी लापता मान, और श्रेणीबद्ध विशेषताओं के लिए सबसे अधिक होने वाले वर्ण।

यह तुलना मूल होल्ड-आउट डेटासेट और सिंथेटिक डेटा के बीच की जानी चाहिए। यह मूल्यांकन प्रकट करेगा कि तुलना किए गए डेटासेट सांख्यिकीय रूप से समान हैं या नहीं। यदि वे नहीं हैं, तो हमें समझ होगी कि कौन-सी विशेषताएँ और माप भिन्न हैं। यदि महत्वपूर्ण अंतर नोट किया जाता है, तो आपको विभिन्न मापदंडों के साथ सिंथेटिक डेटा को फिर से प्रशिक्षित करने और पुन: उत्पन्न करने पर विचार करना चाहिए।

यह परीक्षण प्रारंभिक स्क्रीनिंग के रूप में कार्य करता है ताकि यह सुनिश्चित किया जा सके कि सिंथेटिक डेटा में मूल डेटासेट के लिए उचित निष्ठा है और इसलिए उपयोगी रूप से अधिक कठोर परीक्षण से गुजरना पड़ सकता है।

हिस्टोग्राम समानता स्कोर

हिस्टोग्राम समानता स्कोर सिंथेटिक और मूल डेटासेट के प्रत्येक फीचर के सीमांत वितरण को मापता है।

समानता स्कोर शून्य और एक के बीच होता है, एक के स्कोर के साथ यह दर्शाता है कि सिंथेटिक डेटा वितरण मूल डेटा के वितरण को पूरी तरह से ओवरलैप करते हैं।

एक के करीब का स्कोर उपयोगकर्ताओं को यह विश्वास दिलाएगा कि होल्डआउट डेटासेट और सिंथेटिक डेटासेट सांख्यिकीय रूप से समान हैं।

पारस्परिक सूचना स्कोर

पारस्परिक सूचना स्कोर दो विशेषताओं, संख्यात्मक या श्रेणीबद्ध की पारस्परिक निर्भरता को मापता है, यह दर्शाता है कि एक विशेषता से दूसरे को देखकर कितनी जानकारी प्राप्त की जा सकती है।

पारस्परिक जानकारी गैर-रैखिक संबंधों को माप सकती है, सिंथेटिक डेटा गुणवत्ता की अधिक व्यापक समझ प्रदान करती है क्योंकि यह हमें चर के संबंधों के संरक्षण की सीमा को समझने देती है।

एक का स्कोर इंगित करता है कि सिंथेटिक डेटा में सुविधाओं के बीच पारस्परिक निर्भरता को पूरी तरह से कब्जा कर लिया गया है।

सहसंबंध अंक

सहसंबंध स्कोर यह मापता है कि सिंथेटिक डेटा में मूल डेटासेट में सहसंबंधों को कितनी अच्छी तरह से कैप्चर किया गया है।

एमएल अनुप्रयोगों के लिए दो या अधिक स्तंभों के बीच संबंध अत्यंत महत्वपूर्ण हैं, जो सुविधाओं और लक्ष्य चर के बीच संबंधों को उजागर करने में मदद करते हैं और एक अच्छी तरह से प्रशिक्षित मॉडल बनाने में मदद करते हैं।

सहसंबंध स्कोर शून्य और एक के बीच होता है, एक के स्कोर के साथ यह दर्शाता है कि सहसंबंध पूरी तरह से मेल खाते हैं।

संरचित सारणीबद्ध डेटा के विपरीत, जिसका हम आमतौर पर डेटा समस्याओं में सामना करते हैं, कुछ प्रकार के संरचित डेटा में एक विशेष व्यवहार होता है जहां पिछले अवलोकनों में निम्नलिखित अवलोकन को प्रभावित करने की संभावना होती है। इन्हें समय-श्रृंखला या अनुक्रमिक डेटा के रूप में जाना जाता है - उदाहरण के लिए, एक डेटासेट जिसमें कमरे के तापमान का प्रति घंटा माप होता है।

इस व्यवहार का मतलब है कि कुछ निश्चित मेट्रिक्स को परिभाषित करने की आवश्यकता है जो विशेष रूप से इन समय-श्रृंखला डेटासेट की गुणवत्ता को माप सकते हैं

स्वतःसहसंबंध और आंशिक स्वतःसंबंध स्कोर

हालांकि सहसंबंध के समान, स्वसंबंध एक समय श्रृंखला के संबंध को उसके वर्तमान मूल्य पर दिखाता है क्योंकि यह इसके पिछले मूल्यों से संबंधित है। पिछले समय के प्रभावों को दूर करने से आंशिक स्वसंबंध उत्पन्न होता है। इसलिए, स्वत: सहसंबंध स्कोर यह मापता है कि मूल डेटासेट से सिंथेटिक डेटा ने महत्वपूर्ण ऑटोकॉर्पोरेशन, या आंशिक सहसंबंधों को कितनी अच्छी तरह से कैप्चर किया है।

उपयोगिता को समझने के लिए मेट्रिक्स

अब हम सांख्यिकीय रूप से महसूस कर सकते हैं कि सिंथेटिक डेटा मूल डेटासेट के समान है। इसके अलावा, हमें यह भी आकलन करना चाहिए कि कई एमएल एल्गोरिदम पर प्रशिक्षित होने पर संश्लेषित डेटासेट सामान्य डेटा विज्ञान समस्याओं पर कितना अच्छा है।

निम्नलिखित का उपयोग करना उपयोगिता मेट्रिक्स, हमारा उद्देश्य विश्वास पैदा करना है कि मूल डेटा ने कैसा प्रदर्शन किया है, इस संबंध में हम वास्तव में डाउनस्ट्रीम अनुप्रयोगों पर प्रदर्शन प्राप्त कर सकते हैं।

भविष्यवाणी स्कोर

मूल वास्तविक डेटा की तुलना में सिंथेटिक डेटा के प्रदर्शन को मापना एमएल मॉडल के माध्यम से किया जा सकता है। डाउनस्ट्रीम मॉडल स्कोर सिंथेटिक और मूल डेटासेट दोनों पर प्रशिक्षित एमएल मॉडल के प्रदर्शन की तुलना करके सिंथेटिक डेटा की गुणवत्ता को कैप्चर करता है और मूल डेटासेट से रोके गए परीक्षण डेटा पर मान्य होता है। यह एक प्रदान करता है ट्रेन सिंथेटिक टेस्ट रियल (TSTR) स्कोर और एक ट्रेन रियल टेस्ट रियल (TRTR) स्कोर क्रमशः।

TSTR, TRTR स्कोर और फीचर इंपोर्टेंस स्कोर (लेखक द्वारा छवि)

प्रतिगमन या वर्गीकरण कार्यों के लिए स्कोर में सबसे विश्वसनीय एमएल एल्गोरिदम की एक विस्तृत श्रृंखला शामिल है। कई क्लासीफायर और प्रतिगामी का उपयोग यह सुनिश्चित करता है कि अधिकांश एल्गोरिदम में स्कोर अधिक सामान्य है, ताकि भविष्य में सिंथेटिक डेटा को उपयोगी माना जा सके।

अंत में, यदि TSTR स्कोर और TRTR स्कोर तुलनीय हैं, तो यह इंगित करता है कि सिंथेटिक डेटा में वास्तविक दुनिया के अनुप्रयोगों के लिए प्रभावी एमएल मॉडल को प्रशिक्षित करने के लिए उपयोग की जाने वाली गुणवत्ता है।

फ़ीचर महत्व स्कोर

भविष्यवाणी स्कोर से अत्यधिक संबंधित, फीचर महत्व (FI) स्कोर TSTR और TRTR स्कोर में व्याख्यात्मकता जोड़कर इसे बढ़ाता है।

F1 स्कोर भविष्यवाणी स्कोर के साथ प्राप्त फीचर के महत्व क्रम के परिवर्तन और स्थिरता की तुलना करता है। डेटा का एक सिंथेटिक सेट उच्च उपयोगिता वाला माना जाता है यदि यह मूल वास्तविक डेटा के रूप में फीचर महत्व के समान क्रम का उत्पादन करता है।

क्यूस्कोर

यह सुनिश्चित करने के लिए कि हमारे नए जनरेट किए गए डेटा पर प्रशिक्षित मॉडल मूल डेटा का उपयोग करके प्रशिक्षित मॉडल के समान प्रश्नों के समान उत्तर देने जा रहा है, हम Qscore का उपयोग करते हैं। यह सिंथेटिक और मूल (और होल्डआउट) डेटासेट दोनों पर कई यादृच्छिक एकत्रीकरण-आधारित क्वेरी चलाकर सिंथेटिक डेटा के डाउनस्ट्रीम प्रदर्शन को मापता है।

यहाँ विचार यह है कि इन दोनों प्रश्नों को समान परिणाम देना चाहिए।

एक उच्च QScore सुनिश्चित करता है कि डाउनस्ट्रीम एप्लिकेशन जो क्वेरी और एकत्रीकरण संचालन का उपयोग करते हैं, मूल डेटासेट के समान मूल्य के करीब प्रदान कर सकते हैं।

गोपनीयता को समझने के लिए मेट्रिक्स

- एकांत नियम पहले से मौजूद हैं, यह सुनिश्चित करना एक नैतिक दायित्व और कानूनी आवश्यकता है कि संवेदनशील जानकारी सुरक्षित है।

इससे पहले कि इस सिंथेटिक डेटा को स्वतंत्र रूप से साझा किया जा सके और डाउनस्ट्रीम अनुप्रयोगों के लिए उपयोग किया जा सके, हमें गोपनीयता मेट्रिक्स पर विचार करना चाहिए जो लीक हुई जानकारी की सीमा के संदर्भ में मूल डेटा की तुलना में उत्पन्न सिंथेटिक डेटा को समझने में मदद कर सकता है। इसके अलावा, हमें इस बारे में महत्वपूर्ण निर्णय लेने चाहिए कि सिंथेटिक डेटा को कैसे साझा और उपयोग किया जा सकता है।

सटीक मिलान स्कोर

गोपनीयता का प्रत्यक्ष और सहज मूल्यांकन सिंथेटिक रिकॉर्ड के बीच वास्तविक डेटा की प्रतियों की तलाश करना है। सटीक मिलान स्कोर वास्तविक रिकॉर्ड की संख्या की गणना करता है जो सिंथेटिक सेट के बीच पाया जा सकता है।

स्कोर शून्य होना चाहिए, यह बताते हुए कि सिंथेटिक डेटा में कोई वास्तविक जानकारी मौजूद नहीं है। इससे पहले कि हम आगे गोपनीयता मेट्रिक्स का मूल्यांकन करें, यह मीट्रिक स्क्रीनिंग तंत्र के रूप में कार्य करता है।

पड़ोसियों की गोपनीयता स्कोर

इसके अलावा, पड़ोसियों का गोपनीयता स्कोर सिंथेटिक रिकॉर्ड के अनुपात को मापता है जो वास्तविक लोगों के समानता में बहुत करीब हो सकता है। इसका मतलब यह है कि, हालांकि वे प्रत्यक्ष प्रतियाँ नहीं हैं, वे गोपनीयता रिसाव के संभावित बिंदु हैं और अनुमान हमलों के लिए उपयोगी जानकारी का स्रोत हैं।

मूल डेटा के साथ ओवरलैप किए गए सिंथेटिक डेटा पर उच्च-आयामी निकटतम-पड़ोसी खोज करके स्कोर की गणना की जाती है।

सदस्यता निष्कर्ष स्कोर

डेटा विज्ञान जीवनचक्र में, एक बार जब एक मॉडल को प्रशिक्षित किया जाता है, तो उसे अब प्रशिक्षण नमूनों तक पहुंच की आवश्यकता नहीं होती है और वह अनदेखे डेटा पर भविष्यवाणियां कर सकता है। इसी तरह, हमारे मामले में, सिंथेसाइज़र मॉडल के प्रशिक्षित होने के बाद, मूल डेटा की आवश्यकता के बिना सिंथेटिक डेटा के नमूने उत्पन्न किए जा सकते हैं।

एक प्रकार के हमले के माध्यम से कहा जाता है "सदस्यता अनुमान हमला", हमलावर मूल डेटा तक पहुंच के बिना सिंथेटिक डेटा बनाने के लिए उपयोग किए गए डेटा को प्रकट करने का प्रयास कर सकते हैं। इसके परिणामस्वरूप गोपनीयता का समझौता होता है।

सदस्यता निष्कर्ष स्कोर सदस्यता निष्कर्ष हमले के सफल होने की संभावना को मापता है।

एक कम स्कोर अनुमान की व्यवहार्यता का सुझाव देता है कि एक विशेष रिकॉर्ड प्रशिक्षण डेटासेट का सदस्य था जिसके कारण सिंथेटिक डेटा का निर्माण हुआ। दूसरे शब्दों में, हमले एक व्यक्तिगत रिकॉर्ड के विवरण का अनुमान लगा सकते हैं, जिससे गोपनीयता से समझौता हो सकता है।

एक उच्च सदस्यता अनुमान स्कोर इंगित करता है कि एक हमलावर यह निर्धारित करने की संभावना नहीं रखता है कि कोई विशेष रिकॉर्ड सिंथेटिक डेटा बनाने के लिए उपयोग किए जाने वाले मूल डेटासेट का हिस्सा था या नहीं। इसका मतलब यह भी है कि सिंथेटिक डेटा के जरिए किसी भी व्यक्ति की जानकारी से समझौता नहीं किया गया।

होल्डआउट अवधारणा

एक महत्वपूर्ण सर्वोत्तम अभ्यास जिसका हमें पालन करना चाहिए वह यह सुनिश्चित करना है कि सिंथेटिक डेटा पर्याप्त रूप से सामान्य है और उस मूल डेटा से अधिक नहीं है जिस पर इसे प्रशिक्षित किया गया था। विशिष्ट डेटा विज्ञान प्रवाह में, रैंडम फ़ॉरेस्ट क्लासिफायर जैसे एमएल मॉडल का निर्माण करते समय, हम परीक्षण डेटा को अलग रखते हैं, प्रशिक्षण डेटा का उपयोग करके मॉडल को प्रशिक्षित करते हैं, और अनदेखे परीक्षण डेटा पर मेट्रिक्स का मूल्यांकन करते हैं।

इसी तरह, सिंथेटिक डेटा के लिए, हम मूल डेटा का एक नमूना अलग रखते हैं - जिसे आमतौर पर होल्ड-आउट डेटासेट या अनदेखे रोके गए परीक्षण डेटा के रूप में संदर्भित किया जाता है - और होल्ड-आउट डेटासेट के विरुद्ध उत्पन्न सिंथेटिक डेटा का मूल्यांकन करते हैं।

होल्डआउट डेटासेट मूल डेटा का प्रतिनिधित्व होने की उम्मीद है, फिर भी सिंथेटिक डेटा उत्पन्न होने पर नहीं देखा गया था। इसलिए, मूल से होल्डआउट और सिंथेटिक डेटासेट की तुलना करते समय सभी मीट्रिक के लिए समान स्कोर होना महत्वपूर्ण है।

जब समान अंक प्राप्त होते हैं, तो हम यह स्थापित कर सकते हैं कि समान निष्ठा और उपयोगिता को बनाए रखते हुए, सिंथेटिक डेटा बिंदु मूल डेटा बिंदुओं को याद रखने का परिणाम नहीं हैं।

अंतिम विचार

दुनिया सिंथेटिक डेटा के सामरिक महत्व को समझने लगी है। डेटा वैज्ञानिकों और डेटा जनरेटर के रूप में, यह हमारा कर्तव्य है कि हम जो सिंथेटिक डेटा उत्पन्न करते हैं उसमें विश्वास पैदा करें और सुनिश्चित करें कि यह एक उद्देश्य के लिए है।

डेटा विज्ञान विकास टूलकिट में सिंथेटिक डेटा अनिवार्य रूप से विकसित हो रहा है। एमआईटी प्रौद्योगिकी समीक्षा है विख्यात 2022 की सफल तकनीकों में से एक के रूप में सिंथेटिक डेटा। हम सिंथेटिक डेटा, दावों के बिना उत्कृष्ट मूल्य एआई मॉडल बनाने की कल्पना नहीं कर सकते गार्टनर.

के अनुसार मैकिन्से, सिंथेटिक डेटा उन लागतों और बाधाओं को कम करता है जो अन्यथा आपको एल्गोरिदम विकसित करते समय या डेटा तक पहुंच प्राप्त करते समय होती।

सिंथेटिक डेटा का निर्माण डाउनस्ट्रीम अनुप्रयोगों को जानने और सिंथेटिक डेटा की गुणवत्ता के लिए विभिन्न आयामों के बीच व्यापार-नापसंद को समझने के बारे में है।

सारांश

सिंथेटिक डेटा के उपयोगकर्ता के रूप में, उपयोग के मामले के संदर्भ को परिभाषित करना आवश्यक है जिसके लिए भविष्य में सिंथेटिक के प्रत्येक नमूने का उपयोग किया जाएगा। वास्तविक डेटा की तरह, सिंथेटिक डेटा की गुणवत्ता इच्छित उपयोग के मामले पर निर्भर करती है, साथ ही संश्लेषण के लिए चुने गए मापदंडों पर भी निर्भर करती है।

उदाहरण के लिए, मूल डेटा की तरह सिंथेटिक डेटा में आउटलेयर रखना धोखाधड़ी का पता लगाने के उपयोग के मामले में उपयोगी है। हालांकि, गोपनीयता की चिंताओं के साथ स्वास्थ्य देखभाल के उपयोग के मामले में यह उपयोगी नहीं है, क्योंकि आउटलेयर आमतौर पर सूचना रिसाव हो सकते हैं।

इसके अलावा, निष्ठा, उपयोगिता और गोपनीयता के बीच एक समझौता मौजूद है। डेटा को तीनों के लिए एक साथ अनुकूलित नहीं किया जा सकता है। ये मेट्रिक्स हितधारकों को प्राथमिकता देने में सक्षम बनाते हैं कि प्रत्येक उपयोग के मामले में क्या आवश्यक है और उत्पन्न सिंथेटिक डेटा से अपेक्षाओं का प्रबंधन करें।

अंततः, जब हम प्रत्येक मीट्रिक के मूल्यों को देखते हैं और जब वे अपेक्षाओं को पूरा करते हैं, तो हितधारक उन समाधानों में आश्वस्त हो सकते हैं जो वे सिंथेटिक डेटा का उपयोग करके बनाते हैं।

संरचित सिंथेटिक डेटा के उपयोग के मामलों में नैदानिक परीक्षणों में सिंथेटिक नियंत्रण हथियार बनाने के लिए सॉफ्टवेयर विकास के लिए परीक्षण डेटा से आवेदन की एक विस्तृत श्रृंखला शामिल है।

इन अवसरों का पता लगाने के लिए पहुंचें या मूल्य प्रदर्शित करने के लिए एक PoC का निर्माण करें।

फारिस हद्दाद AABG स्ट्रैटेजिक परसूट्स टीम में डेटा एंड इनसाइट्स लीड है। वह उद्यमों को सफलतापूर्वक डेटा-संचालित बनने में मदद करता है।

समय टिकट: दिसम्बर 16/2022दिसम्बर 18/2022

समय टिकट: अगस्त 25, 2022

सिंथेटिक डेटा की गुणवत्ता का मूल्यांकन कैसे करें - निष्ठा, उपयोगिता और गोपनीयता के दृष्टिकोण से मापना