सफल मशीन लर्निंग (एमएल) फ्रॉड मॉडल के विकास और प्रशिक्षण के लिए बड़ी मात्रा में उच्च-गुणवत्ता वाले डेटा तक पहुंच की आवश्यकता होती है। इस डेटा को सोर्स करना चुनौतीपूर्ण है क्योंकि उपलब्ध डेटासेट कभी-कभी एमएल मॉडल को उपयोगी रूप से प्रशिक्षित करने के लिए पर्याप्त या पर्याप्त रूप से निष्पक्ष नहीं होते हैं और इसके लिए महत्वपूर्ण लागत और समय की आवश्यकता हो सकती है। विनियमन और गोपनीयता आवश्यकताएं एक उद्यम संगठन के भीतर भी डेटा उपयोग या साझाकरण को रोकती हैं। संवेदनशील डेटा के उपयोग और उस तक पहुंच को अधिकृत करने की प्रक्रिया अक्सर एमएल परियोजनाओं में देरी या पटरी से उतर जाती है। वैकल्पिक रूप से, हम सिंथेटिक डेटा को उत्पन्न और उपयोग करके इन चुनौतियों से निपट सकते हैं।
सिंथेटिक डेटा कृत्रिम रूप से बनाए गए डेटासेट का वर्णन करता है जो विनियामक जोखिम और अनुपालन, समय और सोर्सिंग की लागत को संबोधित करने के लिए मूल डेटासेट में सामग्री और पैटर्न की नकल करता है। मूल रूप से अंतर्ग्रहण डेटासेट के सांख्यिकीय गुणों से मेल खाने वाले सिंथेटिक डेटा की आवश्यक मात्रा उत्पन्न करने के लिए सिंथेटिक डेटा जनरेटर प्रासंगिक सुविधाओं, सहसंबंधों और पैटर्न को सीखने के लिए वास्तविक डेटा का उपयोग करते हैं।
प्रयोगशाला वातावरण में सिंथेटिक डेटा का उपयोग किया गया है दो दशकों में; बाजार में उपयोगिता का प्रमाण है जो वाणिज्यिक और सार्वजनिक क्षेत्रों में गोद लेने में तेजी ला रहा है। गार्टनर भविष्यवाणी कि 2024 तक एमएल और एनालिटिक्स सॉल्यूशंस के विकास के लिए उपयोग किए जाने वाले डेटा का 60 प्रतिशत सिंथेटिक रूप से उत्पन्न किया जाएगा और सिंथेटिक डेटा का उपयोग काफी हद तक बढ़ता रहेगा।
वित्तीय आचार प्राधिकरण, एक यूके नियामक निकाय, मानता है कि "डेटा तक पहुंच नवाचार के लिए उत्प्रेरक है, और सिंथेटिक वित्तीय डेटा नवाचार का समर्थन करने और नए प्रवेशकों को नए समाधानों के मूल्य को विकसित करने, परीक्षण करने और प्रदर्शित करने में सक्षम बनाने में भूमिका निभा सकता है।"
अमेज़न सैजमेकर ग्राउंडट्रूथ वर्तमान में समर्थन करता है सिंथेटिक डेटा पीढ़ी लेबल किए गए सिंथेटिक इमेज डेटा का। यह ब्लॉग पोस्ट सारणीबद्ध सिंथेटिक डेटा जनरेशन की पड़ताल करता है। संरचित डेटा, जैसे सिंगल और रिलेशनल टेबल, और टाइम सीरीज़ डेटा वे प्रकार हैं जो एंटरप्राइज़ एनालिटिक्स में सबसे अधिक बार सामने आते हैं।
यह ब्लॉग पोस्ट दो भागों में है; हम भाग एक में सिंथेटिक डेटा बनाते हैं और इसकी गुणवत्ता का मूल्यांकन करते हैं भाग दो.
इस ब्लॉग पोस्ट में, आप सीखेंगे कि ओपन-सोर्स लाइब्रेरी का उपयोग कैसे करें ydata-सिंथेटिक और AWS SageMaker नोटबुक एक धोखाधड़ी उपयोग मामले के लिए सारणीबद्ध डेटा को संश्लेषित करने के लिए, जहां हमारे पास उच्च सटीकता वाले धोखाधड़ी मॉडल को प्रशिक्षित करने के लिए पर्याप्त धोखाधड़ी वाले लेनदेन नहीं हैं। फ्रॉड मॉडल के प्रशिक्षण की सामान्य प्रक्रिया इसमें शामिल है पद.
समाधान का अवलोकन
इस ट्यूटोरियल का उद्देश्य एक अनुकूलित का उपयोग करके अत्यधिक असंतुलित क्रेडिट कार्ड धोखाधड़ी डेटासेट के अल्पसंख्यक वर्ग को संश्लेषित करना है जनरेटिव एडवरसैरियल नेटवर्क (GAN) बुलाया WGAN-जीपी मूल डेटा के पैटर्न और सांख्यिकीय गुण सीखने के लिए और फिर मूल डेटा के समान सिंथेटिक डेटा के अंतहीन नमूने बनाने के लिए। इस प्रक्रिया का उपयोग धोखाधड़ी जैसी दुर्लभ घटनाओं को अप-सैंपलिंग करके मूल डेटा को बढ़ाने या मूल में मौजूद नहीं होने वाले किनारे के मामलों को उत्पन्न करने के लिए भी किया जा सकता है।
हम द्वारा प्रकाशित एक क्रेडिट कार्ड धोखाधड़ी डेटासेट का उपयोग करते हैं यूएलबी, जिसे से डाउनलोड किया जा सकता है Kaggle. अल्पसंख्यक वर्ग के लिए सिंथेटिक डेटा उत्पन्न करने से असंतुलित डेटासेट से संबंधित समस्याओं का समाधान करने में मदद मिलती है, जिससे अधिक सटीक मॉडल विकसित करने में मदद मिल सकती है।
हम Amazon SageMaker और Amazon S3 सहित AWS सेवाओं का उपयोग करते हैं, जिसमें क्लाउड संसाधनों का उपयोग करने की लागत आती है।
विकास का माहौल स्थापित करें
SageMaker मॉडल निर्माण, प्रशिक्षण और परिनियोजन के लिए एक प्रबंधित ज्यूपिटर नोटबुक उदाहरण प्रदान करता है।
आवश्यक:
SageMaker चलाने के लिए आपके पास एक AWS खाता होना चाहिए। आप प्राप्त कर सकते हैं शुरू सेजमेकर के साथ और कोशिश करें हाथों पर ट्यूटोरियल.
अपने ज्यूपिटर नोटबुक के कामकाजी माहौल को सेट करने के निर्देशों के लिए, देखें अमेज़न सेजमेकर नोटबुक इंस्टेंस के साथ शुरुआत करें.
चरण 1: अपना Amazon SageMaker उदाहरण सेट करें
- AWS कंसोल में साइन इन करें और "SageMaker" खोजें।
- चुनते हैं स्टूडियो.
- चुनते हैं नोटबंदी के उदाहरण बाईं पट्टी पर, और चयन करें नोटबुक उदाहरण बनाएँ.
- अगले पृष्ठ से (जैसा कि निम्न चित्र में दिखाया गया है), अपनी आवश्यकताओं के अनुसार वर्चुअल मशीन (VM) के विन्यास का चयन करें, और चयन करें नोटबुक उदाहरण बनाएँ. ध्यान दें कि हमने एक एमएल अनुकूलित वीएम का उपयोग किया जिसमें कोई जीपीयू और 5 जीबी डेटा नहीं है, एमएल.टी3.मीडियम एक अमेज़ॅन लिनक्स 2 चला रहा है, और ज्यूपिटर लैब 3 कर्नेल।
- कुछ ही मिनटों में आपके उपयोग के लिए एक नोटबुक उदाहरण तैयार हो जाएगा।
- चुनते हैं जुपिटरलैब खोलें शुभारंभ करना।
- अब जब हमारे पास अपने आवश्यक विनिर्देशों के साथ एक ज्यूपिटरलैब है, तो हम सिंथेटिक लाइब्रेरी स्थापित करेंगे।
चरण 2: सिंथेटिक डेटा बनाने के लिए वास्तविक डेटासेट डाउनलोड करें या निकालें
संदर्भ डेटा डाउनलोड करें कागल से या तो मैन्युअल रूप से, जैसा कि हम यहां करते हैं, या प्रोग्रामेटिक रूप से कागल एपीआई के माध्यम से यदि आपके पास कागल खाता है। यदि आप इस डेटासेट का अन्वेषण करते हैं, तो आप देखेंगे कि "धोखाधड़ी" वर्ग में "धोखाधड़ी नहीं" वर्ग की तुलना में बहुत कम डेटा होता है।
यदि आप इस डेटा का उपयोग सीधे मशीन लर्निंग भविष्यवाणियों के लिए करते हैं, तो मॉडल हमेशा "धोखाधड़ी नहीं" की भविष्यवाणी करना सीख सकते हैं। एक मॉडल आसानी से गैर-धोखाधड़ी के मामलों में उच्च सटीकता प्राप्त कर सकता है क्योंकि धोखाधड़ी के मामले दुर्लभ हैं। हालांकि, इस कवायद में धोखाधड़ी के मामलों का पता लगाना हमारा उद्देश्य है, हम वास्तविक डेटा पर आधारित सिंथेटिक डेटा के साथ धोखाधड़ी वर्ग संख्या को बढ़ावा देंगे।
JupyterLab में एक डेटा फ़ोल्डर बनाएँ और उसमें कागल डेटा फ़ाइल अपलोड करें। यह आपको SageMaker के बाद से नोटबुक में मौजूद डेटा का उपयोग करने देगा भंडारण के साथ आता है जब आप नोटबुक को तत्काल करते हैं तो आपने निर्दिष्ट किया होगा।
यह डेटासेट 144 एमबी का है
आप पांडा पुस्तकालय के माध्यम से मानक कोड का उपयोग करके डेटा पढ़ सकते हैं:
धोखाधड़ी का पता लगाने वाले डेटा की कुछ विशेषताएं हैं, अर्थात्:
- बड़े वर्ग का असंतुलन (आमतौर पर गैर-धोखाधड़ी डेटा बिंदुओं की ओर)।
- गोपनीयता संबंधी चिंताएँ (संवेदनशील डेटा की उपस्थिति के कारण)।
- गतिशीलता की एक डिग्री, जिसमें एक दुर्भावनापूर्ण उपयोगकर्ता धोखाधड़ी लेनदेन के लिए निगरानी प्रणाली द्वारा पता लगाने से हमेशा बचने की कोशिश कर रहा है।
- उपलब्ध डेटा सेट बहुत बड़े हैं और अक्सर बिना लेबल के होते हैं।
अब जब आपने डेटासेट का निरीक्षण कर लिया है, आइए अल्पसंख्यक वर्ग (क्रेडिट कार्ड डेटासेट से "धोखाधड़ी" वर्ग) को फ़िल्टर करें और आवश्यकतानुसार परिवर्तन करें। आप इससे डेटा परिवर्तन देख सकते हैं नोटबुक.
जब इस अल्पसंख्यक वर्ग के डेटासेट को संश्लेषित किया जाता है और मूल डेटासेट में वापस जोड़ा जाता है, तो यह एक बड़े संश्लेषित डेटासेट की पीढ़ी की अनुमति देता है जो डेटा में असंतुलन को संबोधित करता है। हम अधिक से अधिक भविष्यवाणी सटीकता प्राप्त कर सकते हैं एक धोखाधड़ी का पता लगाने वाले मॉडल का प्रशिक्षण नए डेटासेट का उपयोग करना।
आइए नए फ्रॉड डेटासेट का संश्लेषण करें।
चरण 3: सिंथेसाइज़र को प्रशिक्षित करें और मॉडल बनाएँ
चूँकि आपके पास डेटा आसानी से SageMaker के भीतर उपलब्ध है, इसलिए हमारे सिंथेटिक GAN मॉडल को काम में लाने का समय आ गया है।
एक जनरेटिव एडवरसैरियल नेटवर्क (GAN) के दो भाग होते हैं:
RSI जनक प्रशंसनीय डेटा उत्पन्न करना सीखता है। विवेचक के लिए उत्पन्न उदाहरण नकारात्मक प्रशिक्षण उदाहरण बन जाते हैं।
RSI भेदभाव करनेवाला जनरेटर के नकली डेटा को वास्तविक डेटा से अलग करना सीखता है। विवेचक अविश्वसनीय परिणाम उत्पन्न करने के लिए जनरेटर को दंडित करता है।
जब प्रशिक्षण शुरू होता है, तो जनरेटर स्पष्ट रूप से नकली डेटा उत्पन्न करता है, और विवेचक जल्दी से यह बताना सीख जाता है कि यह नकली है। जैसे-जैसे प्रशिक्षण आगे बढ़ता है, जनरेटर उत्पादन उत्पादन के करीब पहुंच जाता है जो विवेचक को मूर्ख बना सकता है। अंत में, यदि जनरेटर प्रशिक्षण अच्छी तरह से चला जाता है, तो विवेचक असली और नकली के बीच अंतर बताने में बदतर हो जाता है। यह नकली डेटा को वास्तविक के रूप में वर्गीकृत करना शुरू कर देता है और इसकी सटीकता कम हो जाती है।
जनरेटर और विवेचक दोनों तंत्रिका नेटवर्क हैं। जेनरेटर आउटपुट सीधे डिस्क्रिमिनेटर इनपुट से जुड़ा होता है। होकर बैकप्रोगैगेशन, विवेचक का वर्गीकरण एक संकेत प्रदान करता है जिसका उपयोग जनरेटर अपने वजन को अद्यतन करने के लिए करता है।
चरण 4: सिंथेसाइज़र से नमूना सिंथेटिक डेटा
अब जब आपने अपना मॉडल बना लिया है और प्रशिक्षित कर लिया है, तो मॉडल को शोर खिलाकर आवश्यक डेटा का नमूना लेने का समय आ गया है। यह आपको जितना चाहें उतना सिंथेटिक डेटा उत्पन्न करने में सक्षम बनाता है।
इस मामले में, आप वास्तविक डेटा की मात्रा के बराबर सिंथेटिक डेटा उत्पन्न करते हैं क्योंकि इससे चरण 5 में समान नमूना आकारों की तुलना करना आसान हो जाता है।
हमारे पास कपटपूर्ण लेन-देन वाली पंक्तियों का नमूना लेने का विकल्प है—जो, गैर-सिंथेटिक धोखाधड़ी डेटा के साथ संयुक्त होने पर, "धोखाधड़ी" और "धोखाधड़ी नहीं" वर्गों के समान वितरण की ओर ले जाएगा। मूल कागले डेटासेट 492 लेन-देन में से 284,807 धोखाधड़ी शामिल हैं, इसलिए हम सिंथेसाइज़र से एक समान नमूना बनाते हैं।
हमारे पास डेटा वृद्धि नामक एक प्रक्रिया में धोखाधड़ी वाले लेन-देन वाली पंक्तियों को अप-सैंपल करने का विकल्प है—जो, गैर-सिंथेटिक धोखाधड़ी डेटा के साथ संयुक्त होने पर, "धोखाधड़ी" और "धोखाधड़ी नहीं" वर्गों के समान वितरण की ओर ले जाएगा।
चरण 5: वास्तविक डेटा के विरुद्ध सिंथेटिक डेटा की तुलना और मूल्यांकन करें
यद्यपि यह चरण वैकल्पिक है, आप स्कैटर प्लॉट का उपयोग करके वास्तविक डेटा के विरुद्ध उत्पन्न सिंथेटिक डेटा की गुणात्मक रूप से कल्पना और मूल्यांकन कर सकते हैं।
यह सबसे सटीक सिंथेटिक डेटा उत्पन्न करने के लिए मापदंडों को बदलने, नमूना आकार बदलने और अन्य परिवर्तन करने के द्वारा हमारे मॉडल को पुनरावृत्त करने में मदद करता है। सटीकता की यह प्रकृति हमेशा संश्लेषण के उद्देश्य पर निर्भर करती है
नीचे दी गई छवि दर्शाती है कि प्रशिक्षण चरणों में वास्तविक धोखाधड़ी और सिंथेटिक धोखाधड़ी डेटा बिंदु कितने समान हैं। यह सिंथेटिक और वास्तविक डेटा के बीच समानता का एक अच्छा गुणात्मक निरीक्षण देता है और यह कैसे बेहतर होता है क्योंकि हम इसे और अधिक युगों (एल्गोरिदम के माध्यम से संपूर्ण प्रशिक्षण डेटासेट का पारगमन) के माध्यम से चलाते हैं। ध्यान दें कि जैसे-जैसे हम और युग चलाते हैं, सिंथेटिक डेटा पैटर्न सेट मूल डेटा के करीब होता जाता है।
चरण 6: साफ करें
अंत में, अप्रत्याशित लागतों से बचने के लिए जब आप संश्लेषण के साथ काम कर लें तो अपनी नोटबुक आवृत्ति बंद कर दें।
निष्कर्ष
मशीन लर्निंग एल्गोरिदम और कोडिंग फ्रेमवर्क के रूप में तेजी से विकसित होनाबड़े पैमाने पर उच्च गुणवत्ता वाला डेटा एमएल में सबसे दुर्लभ संसाधन है। विभिन्न प्रकार के कार्यों में अच्छी गुणवत्ता वाले सिंथेटिक डेटासेट का उपयोग किया जा सकता है।
इस ब्लॉग पोस्ट में, आपने उपयोग करने वाली ओपन-सोर्स लाइब्रेरी का उपयोग करके डेटासेट को संश्लेषित करने के महत्व को सीखा WGAN-जीपी. यह एक सक्रिय अनुसंधान क्षेत्र है जिसमें जीएएन पर हजारों पेपर प्रकाशित हैं और आपके प्रयोग के लिए कई सैकड़ों नामित जीएएन उपलब्ध हैं। ऐसे वेरिएंट हैं जो विशिष्ट उपयोग के मामलों जैसे रिलेशनल टेबल और टाइम सीरीज़ डेटा के लिए अनुकूलित हैं।
आप इस आलेख के लिए उपयोग किए गए सभी कोड इसमें पा सकते हैं नोटबुक, और निश्चित रूप से, इस तरह के और अधिक ट्यूटोरियल SageMaker से उपलब्ध हैं आधिकारिक दस्तावेज पृष्ठ।
में दूसरा भाग इस दो-भाग की ब्लॉग पोस्ट श्रृंखला में, हम निष्ठा, उपयोगिता और गोपनीयता के दृष्टिकोण से सिंथेटिक डेटा की गुणवत्ता का मूल्यांकन करने के बारे में गहन जानकारी देंगे।
लेखक के बारे में
फारिस हद्दाद AABG स्ट्रैटेजिक परसूट्स टीम में डेटा एंड इनसाइट्स लीड है। वह उद्यमों को सफलतापूर्वक डेटा-संचालित बनने में मदद करता है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- इंटरमीडिएट (200)
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- तकनीकी
- जेफिरनेट