अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.

Amazon SageMaker में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी के लेन-देन को बढ़ाएं

सफल मशीन लर्निंग (एमएल) फ्रॉड मॉडल के विकास और प्रशिक्षण के लिए बड़ी मात्रा में उच्च-गुणवत्ता वाले डेटा तक पहुंच की आवश्यकता होती है। इस डेटा को सोर्स करना चुनौतीपूर्ण है क्योंकि उपलब्ध डेटासेट कभी-कभी एमएल मॉडल को उपयोगी रूप से प्रशिक्षित करने के लिए पर्याप्त या पर्याप्त रूप से निष्पक्ष नहीं होते हैं और इसके लिए महत्वपूर्ण लागत और समय की आवश्यकता हो सकती है। विनियमन और गोपनीयता आवश्यकताएं एक उद्यम संगठन के भीतर भी डेटा उपयोग या साझाकरण को रोकती हैं। संवेदनशील डेटा के उपयोग और उस तक पहुंच को अधिकृत करने की प्रक्रिया अक्सर एमएल परियोजनाओं में देरी या पटरी से उतर जाती है। वैकल्पिक रूप से, हम सिंथेटिक डेटा को उत्पन्न और उपयोग करके इन चुनौतियों से निपट सकते हैं।

सिंथेटिक डेटा कृत्रिम रूप से बनाए गए डेटासेट का वर्णन करता है जो विनियामक जोखिम और अनुपालन, समय और सोर्सिंग की लागत को संबोधित करने के लिए मूल डेटासेट में सामग्री और पैटर्न की नकल करता है। मूल रूप से अंतर्ग्रहण डेटासेट के सांख्यिकीय गुणों से मेल खाने वाले सिंथेटिक डेटा की आवश्यक मात्रा उत्पन्न करने के लिए सिंथेटिक डेटा जनरेटर प्रासंगिक सुविधाओं, सहसंबंधों और पैटर्न को सीखने के लिए वास्तविक डेटा का उपयोग करते हैं।

प्रयोगशाला वातावरण में सिंथेटिक डेटा का उपयोग किया गया है दो दशकों में; बाजार में उपयोगिता का प्रमाण है जो वाणिज्यिक और सार्वजनिक क्षेत्रों में गोद लेने में तेजी ला रहा है। गार्टनर भविष्यवाणी कि 2024 तक एमएल और एनालिटिक्स सॉल्यूशंस के विकास के लिए उपयोग किए जाने वाले डेटा का 60 प्रतिशत सिंथेटिक रूप से उत्पन्न किया जाएगा और सिंथेटिक डेटा का उपयोग काफी हद तक बढ़ता रहेगा।

वित्तीय आचार प्राधिकरण, एक यूके नियामक निकाय, मानता है कि "डेटा तक पहुंच नवाचार के लिए उत्प्रेरक है, और सिंथेटिक वित्तीय डेटा नवाचार का समर्थन करने और नए प्रवेशकों को नए समाधानों के मूल्य को विकसित करने, परीक्षण करने और प्रदर्शित करने में सक्षम बनाने में भूमिका निभा सकता है।"

अमेज़न सैजमेकर ग्राउंडट्रूथ वर्तमान में समर्थन करता है सिंथेटिक डेटा पीढ़ी लेबल किए गए सिंथेटिक इमेज डेटा का। यह ब्लॉग पोस्ट सारणीबद्ध सिंथेटिक डेटा जनरेशन की पड़ताल करता है। संरचित डेटा, जैसे सिंगल और रिलेशनल टेबल, और टाइम सीरीज़ डेटा वे प्रकार हैं जो एंटरप्राइज़ एनालिटिक्स में सबसे अधिक बार सामने आते हैं।

यह ब्लॉग पोस्ट दो भागों में है; हम भाग एक में सिंथेटिक डेटा बनाते हैं और इसकी गुणवत्ता का मूल्यांकन करते हैं भाग दो.

इस ब्लॉग पोस्ट में, आप सीखेंगे कि ओपन-सोर्स लाइब्रेरी का उपयोग कैसे करें ydata-सिंथेटिक और AWS SageMaker नोटबुक एक धोखाधड़ी उपयोग मामले के लिए सारणीबद्ध डेटा को संश्लेषित करने के लिए, जहां हमारे पास उच्च सटीकता वाले धोखाधड़ी मॉडल को प्रशिक्षित करने के लिए पर्याप्त धोखाधड़ी वाले लेनदेन नहीं हैं। फ्रॉड मॉडल के प्रशिक्षण की सामान्य प्रक्रिया इसमें शामिल है पद.

समाधान का अवलोकन

इस ट्यूटोरियल का उद्देश्य एक अनुकूलित का उपयोग करके अत्यधिक असंतुलित क्रेडिट कार्ड धोखाधड़ी डेटासेट के अल्पसंख्यक वर्ग को संश्लेषित करना है जनरेटिव एडवरसैरियल नेटवर्क (GAN) बुलाया WGAN-जीपी मूल डेटा के पैटर्न और सांख्यिकीय गुण सीखने के लिए और फिर मूल डेटा के समान सिंथेटिक डेटा के अंतहीन नमूने बनाने के लिए। इस प्रक्रिया का उपयोग धोखाधड़ी जैसी दुर्लभ घटनाओं को अप-सैंपलिंग करके मूल डेटा को बढ़ाने या मूल में मौजूद नहीं होने वाले किनारे के मामलों को उत्पन्न करने के लिए भी किया जा सकता है।

हम द्वारा प्रकाशित एक क्रेडिट कार्ड धोखाधड़ी डेटासेट का उपयोग करते हैं यूएलबी, जिसे से डाउनलोड किया जा सकता है Kaggle. अल्पसंख्यक वर्ग के लिए सिंथेटिक डेटा उत्पन्न करने से असंतुलित डेटासेट से संबंधित समस्याओं का समाधान करने में मदद मिलती है, जिससे अधिक सटीक मॉडल विकसित करने में मदद मिल सकती है।

हम Amazon SageMaker और Amazon S3 सहित AWS सेवाओं का उपयोग करते हैं, जिसमें क्लाउड संसाधनों का उपयोग करने की लागत आती है।

विकास का माहौल स्थापित करें

SageMaker मॉडल निर्माण, प्रशिक्षण और परिनियोजन के लिए एक प्रबंधित ज्यूपिटर नोटबुक उदाहरण प्रदान करता है।

आवश्यक:

SageMaker चलाने के लिए आपके पास एक AWS खाता होना चाहिए। आप प्राप्त कर सकते हैं शुरू सेजमेकर के साथ और कोशिश करें हाथों पर ट्यूटोरियल.

अपने ज्यूपिटर नोटबुक के कामकाजी माहौल को सेट करने के निर्देशों के लिए, देखें अमेज़न सेजमेकर नोटबुक इंस्टेंस के साथ शुरुआत करें.

चरण 1: अपना Amazon SageMaker उदाहरण सेट करें

  1. AWS कंसोल में साइन इन करें और "SageMaker" खोजें।
  2. चुनते हैं स्टूडियो.
  3. चुनते हैं नोटबंदी के उदाहरण बाईं पट्टी पर, और चयन करें नोटबुक उदाहरण बनाएँ.
  4. अगले पृष्ठ से (जैसा कि निम्न चित्र में दिखाया गया है), अपनी आवश्यकताओं के अनुसार वर्चुअल मशीन (VM) के विन्यास का चयन करें, और चयन करें नोटबुक उदाहरण बनाएँ. ध्यान दें कि हमने एक एमएल अनुकूलित वीएम का उपयोग किया जिसमें कोई जीपीयू और 5 जीबी डेटा नहीं है, एमएल.टी3.मीडियम एक अमेज़ॅन लिनक्स 2 चला रहा है, और ज्यूपिटर लैब 3 कर्नेल।
    नोटबुक उदाहरण बनाएँ
  5. कुछ ही मिनटों में आपके उपयोग के लिए एक नोटबुक उदाहरण तैयार हो जाएगा।
  6. चुनते हैं जुपिटरलैब खोलें शुभारंभ करना।
    अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.
  7. अब जब हमारे पास अपने आवश्यक विनिर्देशों के साथ एक ज्यूपिटरलैब है, तो हम सिंथेटिक लाइब्रेरी स्थापित करेंगे।
pip install ydata-synthetic

चरण 2: सिंथेटिक डेटा बनाने के लिए वास्तविक डेटासेट डाउनलोड करें या निकालें

संदर्भ डेटा डाउनलोड करें कागल से या तो मैन्युअल रूप से, जैसा कि हम यहां करते हैं, या प्रोग्रामेटिक रूप से कागल एपीआई के माध्यम से यदि आपके पास कागल खाता है। यदि आप इस डेटासेट का अन्वेषण करते हैं, तो आप देखेंगे कि "धोखाधड़ी" वर्ग में "धोखाधड़ी नहीं" वर्ग की तुलना में बहुत कम डेटा होता है।

यदि आप इस डेटा का उपयोग सीधे मशीन लर्निंग भविष्यवाणियों के लिए करते हैं, तो मॉडल हमेशा "धोखाधड़ी नहीं" की भविष्यवाणी करना सीख सकते हैं। एक मॉडल आसानी से गैर-धोखाधड़ी के मामलों में उच्च सटीकता प्राप्त कर सकता है क्योंकि धोखाधड़ी के मामले दुर्लभ हैं। हालांकि, इस कवायद में धोखाधड़ी के मामलों का पता लगाना हमारा उद्देश्य है, हम वास्तविक डेटा पर आधारित सिंथेटिक डेटा के साथ धोखाधड़ी वर्ग संख्या को बढ़ावा देंगे।

JupyterLab में एक डेटा फ़ोल्डर बनाएँ और उसमें कागल डेटा फ़ाइल अपलोड करें। यह आपको SageMaker के बाद से नोटबुक में मौजूद डेटा का उपयोग करने देगा भंडारण के साथ आता है जब आप नोटबुक को तत्काल करते हैं तो आपने निर्दिष्ट किया होगा।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.

यह डेटासेट 144 एमबी का है

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.

आप पांडा पुस्तकालय के माध्यम से मानक कोड का उपयोग करके डेटा पढ़ सकते हैं:

import pandas as pd
data = pd.read_csv('./data/creditcard.csv')

धोखाधड़ी का पता लगाने वाले डेटा की कुछ विशेषताएं हैं, अर्थात्:

  • बड़े वर्ग का असंतुलन (आमतौर पर गैर-धोखाधड़ी डेटा बिंदुओं की ओर)।
  • गोपनीयता संबंधी चिंताएँ (संवेदनशील डेटा की उपस्थिति के कारण)।
  • गतिशीलता की एक डिग्री, जिसमें एक दुर्भावनापूर्ण उपयोगकर्ता धोखाधड़ी लेनदेन के लिए निगरानी प्रणाली द्वारा पता लगाने से हमेशा बचने की कोशिश कर रहा है।
  • उपलब्ध डेटा सेट बहुत बड़े हैं और अक्सर बिना लेबल के होते हैं।

अब जब आपने डेटासेट का निरीक्षण कर लिया है, आइए अल्पसंख्यक वर्ग (क्रेडिट कार्ड डेटासेट से "धोखाधड़ी" वर्ग) को फ़िल्टर करें और आवश्यकतानुसार परिवर्तन करें। आप इससे डेटा परिवर्तन देख सकते हैं नोटबुक.

जब इस अल्पसंख्यक वर्ग के डेटासेट को संश्लेषित किया जाता है और मूल डेटासेट में वापस जोड़ा जाता है, तो यह एक बड़े संश्लेषित डेटासेट की पीढ़ी की अनुमति देता है जो डेटा में असंतुलन को संबोधित करता है। हम अधिक से अधिक भविष्यवाणी सटीकता प्राप्त कर सकते हैं एक धोखाधड़ी का पता लगाने वाले मॉडल का प्रशिक्षण नए डेटासेट का उपयोग करना।

आइए नए फ्रॉड डेटासेट का संश्लेषण करें।

चरण 3: सिंथेसाइज़र को प्रशिक्षित करें और मॉडल बनाएँ

चूँकि आपके पास डेटा आसानी से SageMaker के भीतर उपलब्ध है, इसलिए हमारे सिंथेटिक GAN मॉडल को काम में लाने का समय आ गया है।

एक जनरेटिव एडवरसैरियल नेटवर्क (GAN) के दो भाग होते हैं:

RSI जनक प्रशंसनीय डेटा उत्पन्न करना सीखता है। विवेचक के लिए उत्पन्न उदाहरण नकारात्मक प्रशिक्षण उदाहरण बन जाते हैं।

RSI भेदभाव करनेवाला जनरेटर के नकली डेटा को वास्तविक डेटा से अलग करना सीखता है। विवेचक अविश्वसनीय परिणाम उत्पन्न करने के लिए जनरेटर को दंडित करता है।

जब प्रशिक्षण शुरू होता है, तो जनरेटर स्पष्ट रूप से नकली डेटा उत्पन्न करता है, और विवेचक जल्दी से यह बताना सीख जाता है कि यह नकली है। जैसे-जैसे प्रशिक्षण आगे बढ़ता है, जनरेटर उत्पादन उत्पादन के करीब पहुंच जाता है जो विवेचक को मूर्ख बना सकता है। अंत में, यदि जनरेटर प्रशिक्षण अच्छी तरह से चला जाता है, तो विवेचक असली और नकली के बीच अंतर बताने में बदतर हो जाता है। यह नकली डेटा को वास्तविक के रूप में वर्गीकृत करना शुरू कर देता है और इसकी सटीकता कम हो जाती है।

जनरेटर और विवेचक दोनों तंत्रिका नेटवर्क हैं। जेनरेटर आउटपुट सीधे डिस्क्रिमिनेटर इनपुट से जुड़ा होता है। होकर बैकप्रोगैगेशन, विवेचक का वर्गीकरण एक संकेत प्रदान करता है जिसका उपयोग जनरेटर अपने वजन को अद्यतन करने के लिए करता है।

चरण 4: सिंथेसाइज़र से नमूना सिंथेटिक डेटा

अब जब आपने अपना मॉडल बना लिया है और प्रशिक्षित कर लिया है, तो मॉडल को शोर खिलाकर आवश्यक डेटा का नमूना लेने का समय आ गया है। यह आपको जितना चाहें उतना सिंथेटिक डेटा उत्पन्न करने में सक्षम बनाता है।

इस मामले में, आप वास्तविक डेटा की मात्रा के बराबर सिंथेटिक डेटा उत्पन्न करते हैं क्योंकि इससे चरण 5 में समान नमूना आकारों की तुलना करना आसान हो जाता है।

हमारे पास कपटपूर्ण लेन-देन वाली पंक्तियों का नमूना लेने का विकल्प है—जो, गैर-सिंथेटिक धोखाधड़ी डेटा के साथ संयुक्त होने पर, "धोखाधड़ी" और "धोखाधड़ी नहीं" वर्गों के समान वितरण की ओर ले जाएगा। मूल कागले डेटासेट 492 लेन-देन में से 284,807 धोखाधड़ी शामिल हैं, इसलिए हम सिंथेसाइज़र से एक समान नमूना बनाते हैं।

# use the same shape as the real data
synthetic_fraud = synthesizer.sample(492)

हमारे पास डेटा वृद्धि नामक एक प्रक्रिया में धोखाधड़ी वाले लेन-देन वाली पंक्तियों को अप-सैंपल करने का विकल्प है—जो, गैर-सिंथेटिक धोखाधड़ी डेटा के साथ संयुक्त होने पर, "धोखाधड़ी" और "धोखाधड़ी नहीं" वर्गों के समान वितरण की ओर ले जाएगा।

चरण 5: वास्तविक डेटा के विरुद्ध सिंथेटिक डेटा की तुलना और मूल्यांकन करें

यद्यपि यह चरण वैकल्पिक है, आप स्कैटर प्लॉट का उपयोग करके वास्तविक डेटा के विरुद्ध उत्पन्न सिंथेटिक डेटा की गुणात्मक रूप से कल्पना और मूल्यांकन कर सकते हैं।

यह सबसे सटीक सिंथेटिक डेटा उत्पन्न करने के लिए मापदंडों को बदलने, नमूना आकार बदलने और अन्य परिवर्तन करने के द्वारा हमारे मॉडल को पुनरावृत्त करने में मदद करता है। सटीकता की यह प्रकृति हमेशा संश्लेषण के उद्देश्य पर निर्भर करती है

नीचे दी गई छवि दर्शाती है कि प्रशिक्षण चरणों में वास्तविक धोखाधड़ी और सिंथेटिक धोखाधड़ी डेटा बिंदु कितने समान हैं। यह सिंथेटिक और वास्तविक डेटा के बीच समानता का एक अच्छा गुणात्मक निरीक्षण देता है और यह कैसे बेहतर होता है क्योंकि हम इसे और अधिक युगों (एल्गोरिदम के माध्यम से संपूर्ण प्रशिक्षण डेटासेट का पारगमन) के माध्यम से चलाते हैं। ध्यान दें कि जैसे-जैसे हम और युग चलाते हैं, सिंथेटिक डेटा पैटर्न सेट मूल डेटा के करीब होता जाता है।

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.

चरण 6: साफ करें

अंत में, अप्रत्याशित लागतों से बचने के लिए जब आप संश्लेषण के साथ काम कर लें तो अपनी नोटबुक आवृत्ति बंद कर दें।

निष्कर्ष

मशीन लर्निंग एल्गोरिदम और कोडिंग फ्रेमवर्क के रूप में तेजी से विकसित होनाबड़े पैमाने पर उच्च गुणवत्ता वाला डेटा एमएल में सबसे दुर्लभ संसाधन है। विभिन्न प्रकार के कार्यों में अच्छी गुणवत्ता वाले सिंथेटिक डेटासेट का उपयोग किया जा सकता है।

इस ब्लॉग पोस्ट में, आपने उपयोग करने वाली ओपन-सोर्स लाइब्रेरी का उपयोग करके डेटासेट को संश्लेषित करने के महत्व को सीखा WGAN-जीपी. यह एक सक्रिय अनुसंधान क्षेत्र है जिसमें जीएएन पर हजारों पेपर प्रकाशित हैं और आपके प्रयोग के लिए कई सैकड़ों नामित जीएएन उपलब्ध हैं। ऐसे वेरिएंट हैं जो विशिष्ट उपयोग के मामलों जैसे रिलेशनल टेबल और टाइम सीरीज़ डेटा के लिए अनुकूलित हैं।

आप इस आलेख के लिए उपयोग किए गए सभी कोड इसमें पा सकते हैं नोटबुक, और निश्चित रूप से, इस तरह के और अधिक ट्यूटोरियल SageMaker से उपलब्ध हैं आधिकारिक दस्तावेज पृष्ठ।

में दूसरा भाग इस दो-भाग की ब्लॉग पोस्ट श्रृंखला में, हम निष्ठा, उपयोगिता और गोपनीयता के दृष्टिकोण से सिंथेटिक डेटा की गुणवत्ता का मूल्यांकन करने के बारे में गहन जानकारी देंगे।


लेखक के बारे में

अमेज़ॅन सेजमेकर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी लेनदेन को बढ़ाएं। लंबवत खोज. ऐ.फारिस हद्दाद AABG स्ट्रैटेजिक परसूट्स टीम में डेटा एंड इनसाइट्स लीड है। वह उद्यमों को सफलतापूर्वक डेटा-संचालित बनने में मदद करता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

Amazon SageMaker और Amazon Rekognition | का उपयोग करके छवियों में कार की स्थिति का पता लगाने के लिए कंप्यूटर विज़न मॉडल बनाएं और प्रशिक्षित करें अमेज़न वेब सेवाएँ

स्रोत नोड: 1870831
समय टिकट: अगस्त 3, 2023