सिंथेटिक डेटा क्या है? मशीन सीखने और गोपनीयता के लिए उनके प्रकार, उपयोग के मामले और अनुप्रयोग

की छवि

डेटा साइंस और मशीन लर्निंग का क्षेत्र हर दिन बढ़ रहा है। चूंकि नए मॉडल और एल्गोरिदम समय के साथ प्रस्तावित किए जा रहे हैं, इन नए एल्गोरिदम और मॉडल को प्रशिक्षण और परीक्षण के लिए भारी डेटा की आवश्यकता है। डीप लर्निंग मॉडल आजकल बहुत लोकप्रियता हासिल कर रहे हैं, और वे मॉडल भी डेटा के भूखे हैं। विभिन्न समस्या बयानों के संदर्भ में इतनी बड़ी मात्रा में डेटा प्राप्त करना काफी भयानक, समय लेने वाली और महंगी प्रक्रिया है। डेटा वास्तविक जीवन परिदृश्यों से एकत्र किया जाता है, जो सुरक्षा दायित्वों और गोपनीयता संबंधी चिंताओं को उठाता है। अधिकांश डेटा निजी है और गोपनीयता कानूनों और विनियमों द्वारा संरक्षित है, जो संगठनों के बीच या कभी-कभी एक ही संगठन के विभिन्न विभागों के बीच डेटा के आदान-प्रदान और आवाजाही में बाधा डालता है - जिसके परिणामस्वरूप प्रयोगों और उत्पादों के परीक्षण में देरी होती है। ऐसे में सवाल उठता है कि इस मसले का समाधान कैसे हो सकता है? किसी की गोपनीयता के बारे में चिंता किए बिना डेटा को अधिक सुलभ और खुला कैसे बनाया जा सकता है?  

इस समस्या का समाधान कुछ के रूप में जाना जाता है सिंथेटिक डेटा। 

तो, सिंथेटिक डेटा क्या है?

परिभाषा के अनुसार, सिंथेटिक डेटा कृत्रिम रूप से या एल्गोरिथम से उत्पन्न होता है और वास्तविक डेटा की अंतर्निहित संरचना और संपत्ति के समान होता है। यदि संश्लेषित डेटा अच्छा है, तो यह वास्तविक डेटा से अप्रभेद्य है।

सिंथेटिक डेटा के कितने विभिन्न प्रकार हो सकते हैं?

इस प्रश्न का उत्तर बहुत खुला है, क्योंकि डेटा कई रूप ले सकता है, लेकिन मुख्य रूप से हमारे पास है 

  1. पाठ डेटा
  2. ऑडियो या विज़ुअल डेटा (उदाहरण के लिए, चित्र, वीडियो और ऑडियो)
  3. सारणीबद्ध आंकड़े

मशीन लर्निंग के लिए सिंथेटिक डेटा के मामलों का इस्तेमाल करें

जैसा कि ऊपर उल्लेख किया गया है, हम केवल तीन प्रकार के सिंथेटिक डेटा के उपयोग के मामलों पर चर्चा करेंगे।

  • एनएलपी मॉडल के प्रशिक्षण के लिए सिंथेटिक टेक्स्ट डेटा का उपयोग

सिंथेटिक डेटा में प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में अनुप्रयोग होते हैं। उदाहरण के लिए, अमेज़ॅन में एलेक्सा एआई टीम अपने एनएलयू सिस्टम (प्राकृतिक भाषा समझ) के लिए प्रशिक्षण सेट को पूरा करने के लिए सिंथेटिक डेटा का उपयोग करती है। यह उन्हें मौजूदा या पर्याप्त उपभोक्ता संपर्क डेटा के बिना नई भाषाओं के प्रशिक्षण के लिए एक ठोस आधार प्रदान करता है।

  • प्रशिक्षण दृष्टि एल्गोरिदम के लिए सिंथेटिक डेटा का उपयोग करना

   आइए यहां व्यापक उपयोग के मामले पर चर्चा करें। मान लीजिए हम एक छवि में चेहरों की संख्या का पता लगाने या गिनने के लिए एक एल्गोरिथ्म विकसित करना चाहते हैं। हम मॉडल को प्रशिक्षित करने के लिए यथार्थवादी मानवीय चेहरे, यानी ऐसे चेहरे जो वास्तविक दुनिया में मौजूद नहीं हैं, उत्पन्न करने के लिए एक GAN या कुछ अन्य जनरेटिव नेटवर्क का उपयोग कर सकते हैं। एक और फायदा यह है कि हम किसी की गोपनीयता भंग किए बिना इन एल्गोरिदम से जितना चाहें उतना डेटा उत्पन्न कर सकते हैं। लेकिन हम वास्तविक डेटा का उपयोग नहीं कर सकते क्योंकि इसमें कुछ व्यक्तियों के चेहरे होते हैं, इसलिए कुछ गोपनीयता नीतियां उस डेटा का उपयोग प्रतिबंधित करती हैं।

एक अन्य उपयोग मामला नकली वातावरण में सुदृढीकरण सीखने का है। मान लीजिए कि हम किसी वस्तु को पकड़ने और उसे एक बॉक्स में रखने के लिए डिज़ाइन किए गए रोबोटिक आर्म का परीक्षण करना चाहते हैं। इस उद्देश्य के लिए एक सुदृढीकरण सीखने का एल्गोरिदम तैयार किया गया है। हमें इसका परीक्षण करने के लिए प्रयोग करने की आवश्यकता है क्योंकि इस तरह से सुदृढीकरण सीखने का एल्गोरिदम सीखता है। वास्तविक जीवन के परिदृश्य में एक प्रयोग स्थापित करना काफी महंगा और समय लेने वाला होता है, जिससे हमारे द्वारा किए जा सकने वाले विभिन्न प्रयोगों की संख्या सीमित हो जाती है। लेकिन अगर हम सिम्युलेटेड वातावरण में प्रयोग करते हैं, तो प्रयोग को स्थापित करना अपेक्षाकृत सस्ता है क्योंकि इसमें रोबोटिक आर्म प्रोटोटाइप की आवश्यकता नहीं होगी।

  • सारणीबद्ध डेटा का उपयोग

सारणीबद्ध सिंथेटिक डेटा कृत्रिम रूप से उत्पन्न डेटा है जो तालिकाओं में संग्रहीत वास्तविक दुनिया के डेटा की नकल करता है। यह डेटा पंक्तियों और स्तंभों में संरचित है। इन तालिकाओं में संगीत प्लेलिस्ट जैसा कोई भी डेटा हो सकता है। प्रत्येक गीत के लिए, आपका म्यूजिक प्लेयर जानकारी का एक समूह रखता है: इसका नाम, गायक, इसकी लंबाई, इसकी शैली, और इसी तरह। यह एक वित्त रिकॉर्ड भी हो सकता है जैसे बैंक लेनदेन, स्टॉक की कीमतें आदि।

बैंक लेनदेन से संबंधित सिंथेटिक सारणीबद्ध डेटा का उपयोग धोखाधड़ी लेनदेन का पता लगाने के लिए मॉडल और डिजाइन एल्गोरिदम को प्रशिक्षित करने के लिए किया जाता है। स्टॉक की भविष्य की कीमतों की भविष्यवाणी करने के लिए मॉडल को प्रशिक्षित करने और परीक्षण करने के लिए अतीत के स्टॉक मूल्य डेटा का उपयोग किया जा सकता है।

मशीन लर्निंग में सिंथेटिक डेटा का उपयोग करने का एक महत्वपूर्ण लाभ यह है कि डेवलपर का डेटा पर नियंत्रण होता है; वह किसी भी विचार का परीक्षण करने और उसके साथ प्रयोग करने की आवश्यकता के अनुसार डेटा में परिवर्तन कर सकता है। इस बीच, एक डेवलपर संश्लेषित डेटा पर मॉडल का परीक्षण कर सकता है, और यह एक बहुत स्पष्ट विचार देगा कि मॉडल वास्तविक जीवन डेटा पर कैसा प्रदर्शन करेगा। यदि कोई डेवलपर किसी मॉडल को आज़माना चाहता है और वास्तविक डेटा की प्रतीक्षा करता है, तो डेटा प्राप्त करने में सप्ताह या महीने भी लग सकते हैं। इसलिए, प्रौद्योगिकी के विकास और नवाचार में देरी।

अब हम इस बात पर चर्चा करने के लिए तैयार हैं कि कैसे सिंथेटिक डेटा डेटा गोपनीयता से संबंधित मुद्दों को हल करने में मदद करता है।

कई उद्योग अपने ग्राहकों द्वारा नवाचार और विकास के लिए उत्पन्न डेटा पर निर्भर करते हैं, लेकिन उस डेटा में व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) होती है, और गोपनीयता कानून ऐसे डेटा के प्रसंस्करण को सख्ती से नियंत्रित करते हैं। उदाहरण के लिए, जनरल डेटा प्रोटेक्शन रेगुलेशन (जीडीपीआर) उन उपयोगों को प्रतिबंधित करता है जिनके लिए संगठन द्वारा डेटा एकत्र करते समय स्पष्ट रूप से सहमति नहीं दी गई थी। सिंथेटिक डेटा वास्तविक डेटा की अंतर्निहित संरचना के बहुत करीब से मिलता जुलता है और साथ ही, यह सुनिश्चित करता है कि कोई वास्तविक डेटा में मौजूद व्यक्ति को सिंथेटिक डेटा से फिर से पहचाना जा सकता है। नतीजतन, सिंथेटिक डेटा के प्रसंस्करण और साझाकरण में बहुत कम नियम हैं, जिसके परिणामस्वरूप तेजी से विकास और नवाचार और डेटा तक आसान पहुंच होती है।

निष्कर्ष

सिंथेटिक डेटा के कई महत्वपूर्ण फायदे हैं। यह एमएल डेवलपर्स को प्रयोगों पर नियंत्रण देता है और विकास की गति को बढ़ाता है क्योंकि डेटा अब अधिक सुलभ है। यह बड़े पैमाने पर सहयोग को बढ़ावा देता है क्योंकि डेटा स्वतंत्र रूप से साझा करने योग्य है। इसके अतिरिक्त, सिंथेटिक डेटा वास्तविक डेटा से व्यक्तियों की गोपनीयता की रक्षा करने की गारंटी देता है।


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

विनीत

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

विनीत कुमार मार्कटेकपोस्ट में कंसल्टिंग इंटर्न हैं। वह वर्तमान में भारतीय प्रौद्योगिकी संस्थान (आईआईटी), कानपुर से बीएस कर रहे हैं। वह मशीन लर्निंग उत्साही है। वह डीप लर्निंग, कंप्यूटर विजन और संबंधित क्षेत्रों में अनुसंधान और नवीनतम प्रगति के बारे में भावुक हैं।

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स

मैरीलैंड विश्वविद्यालय क्रिप्टोक्यूरेंसी और सेंट्रल बैंक डिजिटल करेंसी (CBDC) - एजुकेशन वायर पर एक सार्वजनिक व्याख्यान की मेजबानी करता है

स्रोत नोड: 1760671
समय टिकट: नवम्बर 22, 2022