सर्वर रहित AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करके Amazon SageMaker Studio में बड़े पैमाने पर डेटा तैयार करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़ॅन सैजमेकर स्टूडियो मशीन लर्निंग (एमएल) के लिए पहला पूर्ण एकीकृत विकास वातावरण (आईडीई) है। यह एक एकल, वेब-आधारित दृश्य इंटरफ़ेस प्रदान करता है जहां आप डेटा तैयार करने और निर्माण, प्रशिक्षण और मॉडल की तैनाती सहित सभी एमएल विकास चरणों को पूरा कर सकते हैं।

एडब्ल्यूएस गोंद एक सर्वर रहित डेटा एकीकरण सेवा है जो एनालिटिक्स, एमएल और एप्लिकेशन डेवलपमेंट के लिए डेटा को खोजना, तैयार करना और संयोजित करना आसान बनाती है। एडब्ल्यूएस गोंद आपको विभिन्न क्षमताओं का उपयोग करके अपने डेटा झीलों और डेटा पाइपलाइनों में भंडारण के लिए डेटा एकत्र करने, बदलने, शुद्ध करने और डेटा तैयार करने में सक्षम बनाता है, जिसमें शामिल हैं बिल्ट-इन ट्रांसफॉर्म्स.

डेटा इंजीनियर और डेटा वैज्ञानिक अब एडब्ल्यूएस ग्लू द्वारा प्रबंधित सर्वर रहित स्पार्क सत्रों के साथ अपने स्टूडियो नोटबुक के अंतर्निर्मित एकीकरण का उपयोग करके बड़े पैमाने पर डेटा तैयार कर सकते हैं। सेकंड में शुरू करना और निष्क्रिय होने पर स्वचालित रूप से गणना रोकना, एडब्ल्यूएस गोंद इंटरैक्टिव सत्र स्टूडियो के भीतर स्केलेबल डेटा तैयार करने के लिए ऑन-डिमांड, उच्च-स्केलेबल, सर्वर रहित स्पार्क बैकएंड प्रदान करें। स्टूडियो नोटबुक्स पर AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करने के उल्लेखनीय लाभों में शामिल हैं:

प्रावधान या प्रबंधन के लिए कोई क्लस्टर नहीं
भुगतान करने के लिए कोई निष्क्रिय क्लस्टर नहीं
कोई अप-फ्रंट कॉन्फ़िगरेशन की आवश्यकता नहीं है
समान विकास परिवेश के लिए कोई संसाधन विवाद नहीं
ठीक उसी सर्वर रहित स्पार्क रनटाइम और प्लेटफ़ॉर्म जैसे AWS ग्लू एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड (ETL) जॉब

इस पोस्ट में, हम आपको दिखाते हैं कि सर्वर रहित AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करके स्टूडियो में बड़े पैमाने पर डेटा कैसे तैयार किया जाता है।

समाधान अवलोकन

इस समाधान को लागू करने के लिए, आप निम्न उच्च-स्तरीय चरणों को पूरा करते हैं:

अपना अपडेट करें AWS पहचान और अभिगम प्रबंधन (IAM) भूमिका अनुमतियाँ।
एक एडब्ल्यूएस गोंद इंटरैक्टिव सत्र कर्नेल लॉन्च करें।
अपने इंटरैक्टिव सत्र को कॉन्फ़िगर करें।
अपने इंटरैक्टिव सत्र को अनुकूलित करें और एक स्केलेबल डेटा तैयारी कार्यभार चलाएं।

अपनी IAM भूमिका अनुमतियां अपडेट करें

शुरू करने के लिए, आपको आवश्यक अनुमतियों के साथ अपने स्टूडियो उपयोगकर्ता की IAM निष्पादन भूमिका को अपडेट करना होगा। विस्तृत निर्देशों के लिए देखें सेजमेकर स्टूडियो में ग्लू इंटरएक्टिव सत्रों के लिए अनुमतियाँ.

आप पहले प्रबंधित नीतियों को अपनी निष्पादन भूमिका में जोड़ते हैं:

IAM कंसोल पर, चुनें भूमिकाओं नेविगेशन फलक में
स्टूडियो निष्पादन भूमिका ढूंढें जिसका आप उपयोग करेंगे, और भूमिका सारांश पृष्ठ पर जाने के लिए भूमिका का नाम चुनें।
पर अनुमतियाँ टैब, पर अनुमतियां जोड़ें मेनू, चुनें नीतियों को संलग्न करें.
प्रबंधित नीतियों का चयन करें AmazonSageMakerFullAccess और AwsGlueSessionUserRestrictedServiceRole
चुनें नीतियों को संलग्न करें.
सारांश पृष्ठ आपकी नई जोड़ी गई प्रबंधित नीतियों को दिखाता है। अब आप एक कस्टम नीति जोड़ें और इसे अपनी निष्पादन भूमिका में संलग्न करें।
पर अनुमतियां जोड़ें मेनू, चुनें इनलाइन नीति बनाएं.

पर JSON टैब, निम्न नीति दर्ज करें:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": [
                "iam:GetRole",
                "iam:PassRole",
                "sts:GetCallerIdentity"
            ],
            "Resource": "*"
        }
    ]
}

अपनी भूमिका के विश्वास संबंध को संशोधित करें:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": [
                    "glue.amazonaws.com",
                    "sagemaker.amazonaws.com"
                ]
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

AWS ग्लू इंटरएक्टिव सत्र कर्नेल लॉन्च करें

अगर आपके स्टूडियो डोमेन में पहले से मौजूद उपयोगकर्ता हैं, तो आपको उन्हें रखने की आवश्यकता हो सकती है शट डाउन करें और उनके ज्यूपिटर सर्वर को पुनरारंभ करें नई नोटबुक कर्नेल छवियों को लेने के लिए।

पुनः लोड करने पर, आप एक नया स्टूडियो नोटबुक बना सकते हैं और अपना पसंदीदा कर्नेल चुनें. बिल्ट-इन SparkAnalytics 1.0 छवि अब उपलब्ध होनी चाहिए, और आप अपना पसंदीदा एडब्ल्यूएस गोंद कर्नेल चुन सकते हैं (गोंद स्काला स्पार्क or गोंद पायस्पार्क).

अपना इंटरैक्टिव सत्र कॉन्फ़िगर करें

आरंभ करने से पहले आप अपने AWS ग्लू इंटरएक्टिव सत्र को नोटबुक सेल मैजिक के साथ आसानी से कॉन्फ़िगर कर सकते हैं। मैजिक छोटे कमांड हैं जो जुपिटर कोशिकाओं की शुरुआत में % के साथ उपसर्ग करते हैं जो पर्यावरण को नियंत्रित करने के लिए शॉर्टकट प्रदान करते हैं। AWS ग्लू इंटरएक्टिव सत्रों में, सभी कॉन्फ़िगरेशन आवश्यकताओं के लिए मैजिक का उपयोग किया जाता है, जिसमें शामिल हैं:

%क्षेत्र - एडब्ल्यूएस क्षेत्र जिसमें सत्र शुरू करना है। डिफ़ॉल्ट स्टूडियो क्षेत्र है।
%iam_भूमिका - आपके सत्र को चलाने के लिए IAM भूमिका ARN। डिफ़ॉल्ट उपयोगकर्ता की सेजमेकर निष्पादन भूमिका है।
% कार्यकर्ता_प्रकार - एडब्ल्यूएस गोंद कार्यकर्ता प्रकार. डिफ़ॉल्ट मानक है।
श्रमिकों की %संख्या - नौकरी चलने पर आवंटित श्रमिकों की संख्या। डिफ़ॉल्ट पांच है।
%निष्क्रिय समय - निष्क्रियता के मिनटों की संख्या जिसके बाद एक सत्र का समय समाप्त हो जाएगा। डिफ़ॉल्ट 2,880 मिनट है।
%अतिरिक्त_पायथन_मॉड्यूल - आपके क्लस्टर में शामिल करने के लिए अतिरिक्त पायथन मॉड्यूल की अल्पविराम से अलग की गई सूची। यह PyPi or . से हो सकता है अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
%%कॉन्फ़िगर - एक JSON-स्वरूपित शब्दकोश जिसमें एडब्ल्यूएस गोंद-विशिष्ट कॉन्फ़िगरेशन पैरामीटर एक सत्र के लिए।

इस कर्नेल के लिए विन्यास योग्य मैजिक पैरामीटर की एक विस्तृत सूची के लिए, का उपयोग करें %help आपकी नोटबुक में जादू।

आपका एडब्ल्यूएस ग्लू इंटरेक्टिव सत्र तब तक शुरू नहीं होगा जब तक कि पहला गैर-मैजिक सेल नहीं चलाया जाता।

अपने इंटरैक्टिव सत्र को अनुकूलित करें और डेटा तैयारी कार्यभार चलाएं

एक उदाहरण के रूप में, निम्नलिखित नोटबुक सेल दिखाते हैं कि आप अपने AWS ग्लू इंटरएक्टिव सत्र को कैसे अनुकूलित कर सकते हैं और एक स्केलेबल डेटा तैयारी कार्यभार चला सकते हैं। इस उदाहरण में, हम किसी दिए गए शहर के लिए वायु गुणवत्ता डेटा एकत्र करने के लिए एक ईटीएल कार्य करते हैं, जिसे दिन के घंटे के आधार पर समूहीकृत किया जाता है।

हम रीयल-टाइम डिबगिंग के लिए अपने स्पार्क लॉग को S3 बकेट में सहेजने के लिए अपने सत्र को कॉन्फ़िगर करते हैं, जिसे हम इस पोस्ट में बाद में देखते हैं। सुनिश्चित करें कि iam_role जो आपके AWS ग्लू सत्र को चला रहा है, उसके पास निर्दिष्ट S3 बकेट तक लेखन पहुंच है।

%help

%session_id_prefix air-analysis-
%glue_version 3.0
%idle_timeout 60
%%configure
{
"--enable-spark-ui": "true",
"--spark-event-logs-path": "s3://<BUCKET>/gis-spark-logs/"
}

इसके बाद, हम अपने डेटासेट को सीधे Amazon S3 से लोड करते हैं। वैकल्पिक रूप से, आप कर सकते थे अपने एडब्ल्यूएस गोंद डेटा कैटलॉग का उपयोग करके डेटा लोड करें.

from pyspark.sql.functions import split, lower, hour
print(spark.version)
day_to_analyze = "2022-01-05"
df = spark.read.json(f"s3://openaq-fetches/realtime-gzipped/{day_to_analyze}/1641409725.ndjson.gz")
df_air = spark.read.schema(df.schema).json(f"s3://openaq-fetches/realtime-gzipped/{day_to_analyze}/*")

अंत में, हम अपने रूपांतरित डेटासेट को आउटपुट बकेट लोकेशन पर लिखते हैं जिसे हमने परिभाषित किया है:

df_city = df_air.filter(lower((df_air.city)).contains('delhi')).filter(df_air.parameter == "no2").cache()
df_avg = df_city.withColumn("Hour", hour(df_city.date.utc)).groupBy("Hour").avg("value").withColumnRenamed("avg(value)", "no2_avg")
df_avg.sort("Hour").show()

# Examples of reading / writing to other data stores: 
# https://github.com/aws-samples/aws-glue-samples/tree/master/examples/notebooks

df_avg.write.parquet(f"s3://<BUCKET>/{day_to_analyze}.parquet")

अपना काम पूरा करने के बाद, आप केवल स्टूडियो नोटबुक कर्नेल को बंद करके अपने AWS ग्लू इंटरएक्टिव सत्र को तुरंत समाप्त कर सकते हैं, या आप इसका उपयोग कर सकते हैं %stop_session जादू.

डिबगिंग और स्पार्क यूआई

पिछले उदाहरण में, हमने निर्दिष्ट किया था ”--enable-spark-ui”: “true” एक के साथ तर्क "--spark-event-logs-path": location. यह सत्र लॉग रिकॉर्ड करने के लिए हमारे AWS ग्लू सत्र को कॉन्फ़िगर करता है ताकि हम वास्तविक समय में अपने AWS ग्लू जॉब की निगरानी और डीबग करने के लिए स्पार्क UI का उपयोग कर सकें।

उन स्पार्क लॉग को लॉन्च करने और पढ़ने की प्रक्रिया के लिए, देखें स्पार्क इतिहास सर्वर लॉन्च करना. निम्नलिखित स्क्रीनशॉट में, हमने एक स्थानीय डॉकर कंटेनर लॉन्च किया है जिसमें S3 बकेट को पढ़ने की अनुमति है जिसमें हमारे लॉग शामिल हैं। वैकल्पिक रूप से, आप एक होस्ट कर सकते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) ऐसा करने के लिए उदाहरण, जैसा कि पिछले लिंक किए गए दस्तावेज़ीकरण में वर्णित है।

मूल्य निर्धारण

जब आप स्टूडियो नोटबुक्स पर AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करते हैं, तो आपसे AWS ग्लू और स्टूडियो नोटबुक पर संसाधन उपयोग के लिए अलग से शुल्क लिया जाता है।

एडब्ल्यूएस ग्लू इंटरएक्टिव सत्रों के लिए एडब्ल्यूएस शुल्क सत्र कितने समय तक सक्रिय है और डेटा प्रोसेसिंग यूनिट (डीपीयू) की संख्या के आधार पर उपयोग किया जाता है। आपसे आपके कार्यभार को चलाने के लिए उपयोग किए जाने वाले डीपीयू की संख्या के लिए प्रति घंटा की दर से शुल्क लिया जाता है, जो 1 सेकंड की वृद्धि में बिल किया जाता है। एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र 5 डीपीयू का डिफ़ॉल्ट असाइन करते हैं और न्यूनतम 2 डीपीयू की आवश्यकता होती है। प्रत्येक इंटरैक्टिव सत्र के लिए न्यूनतम 1 मिनट की बिलिंग अवधि भी है। एडब्ल्यूएस गोंद दरों और मूल्य निर्धारण के उदाहरण देखने के लिए, या एडब्ल्यूएस मूल्य निर्धारण कैलकुलेटर का उपयोग करके अपनी लागतों का अनुमान लगाने के लिए, देखें एडब्ल्यूएस गोंद मूल्य निर्धारण.

आपकी स्टूडियो नोटबुक EC2 इंस्टेंस पर चलती है और उपयोग की अवधि के आधार पर आपके द्वारा चुने गए इंस्टेंस प्रकार के लिए आपसे शुल्क लिया जाता है। जब आप इसे चुनते हैं तो स्टूडियो आपको एक डिफ़ॉल्ट ईसी2 इंस्टेंस प्रकार एमएल-टी3-माध्यम प्रदान करता है SparkAnalytics छवि और संबंधित कर्नेल। आप अपने वर्कलोड के अनुरूप अपने स्टूडियो नोटबुक के इंस्टेंस प्रकार को बदल सकते हैं। सेजमेकर स्टूडियो मूल्य निर्धारण के बारे में जानकारी के लिए देखें अमेज़न SageMaker मूल्य निर्धारण.

निष्कर्ष

एडब्ल्यूएस ग्लू इंटरएक्टिव सत्रों के साथ स्टूडियो नोटबुक का मूल एकीकरण डेटा वैज्ञानिकों और डेटा इंजीनियरों के लिए निर्बाध और स्केलेबल सर्वर रहित डेटा तैयार करने की सुविधा प्रदान करता है। हम आपको स्टूडियो में इस नई कार्यक्षमता को आज़माने के लिए प्रोत्साहित करते हैं!

देख एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र का उपयोग करके डेटा तैयार करें देखें।

लेखक के बारे में

शॉन मॉर्गन एडब्ल्यूएस में वरिष्ठ एमएल सॉल्यूशंस आर्किटेक्ट हैं। उनके पास सेमीकंडक्टर और अकादमिक अनुसंधान क्षेत्रों में अनुभव है, और ग्राहकों को एडब्ल्यूएस पर अपने लक्ष्यों तक पहुंचने में मदद करने के लिए अपने अनुभव का उपयोग करते हैं। अपने खाली समय में सीन एक सक्रिय ओपन सोर्स योगदानकर्ता / अनुरक्षक है और TensorFlow Addons के लिए विशेष रुचि समूह का नेतृत्व है।

सुमेधा स्वामी Amazon Web Services में प्रधान उत्पाद प्रबंधक हैं। वह इंटरेक्टिव डेटा साइंस और डेटा इंजीनियरिंग वर्कफ़्लोज़ के लिए पसंद के आईडीई में इसे बनाने के लिए सेजमेकर स्टूडियो टीम का नेतृत्व करता है। उन्होंने पिछले 15 वर्षों में मशीन लर्निंग का उपयोग करके ग्राहक-जुनूनी उपभोक्ता और उद्यम उत्पादों का निर्माण किया है। अपने खाली समय में वह अमेरिकी दक्षिण-पश्चिम के अद्भुत भूविज्ञान की तस्वीरें लेना पसंद करते हैं।

समय टिकट: सितम्बर 13, 2022सितम्बर 13, 2022

समय टिकट: अक्टूबर 10, 2023

Amazon SageMaker ML मॉडल के लिए परीक्षण दृष्टिकोण

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1723753

समय टिकट: अक्टूबर 14, 2022

एआई तकनीक का उपयोग करके अपने मवेशियों पर नज़र रखें | अमेज़न वेब सेवाएँ

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1902872

समय टिकट: अक्टूबर 17, 2023

अपने व्यापार विश्लेषकों को अमेज़ॅन सेजमेकर कैनवास तक सुरक्षित पहुंच प्रदान करने के लिए पूर्व-हस्ताक्षरित यूआरएल का उपयोग करें

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1384016

समय टिकट: जून 14, 2022

सर्वर रहित AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करके Amazon SageMaker Studio में बड़े पैमाने पर डेटा तैयार करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

अपनी IAM भूमिका अनुमतियां अपडेट करें

AWS ग्लू इंटरएक्टिव सत्र कर्नेल लॉन्च करें

अपना इंटरैक्टिव सत्र कॉन्फ़िगर करें

अपने इंटरैक्टिव सत्र को अनुकूलित करें और डेटा तैयारी कार्यभार चलाएं

डिबगिंग और स्पार्क यूआई

मूल्य निर्धारण

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर रोल मैनेजर के साथ मिनटों में अनुकूलित अनुमतियों को परिभाषित करें

नवप्रवर्तन दिवस पर AI/ML के 20 वर्षों से अधिक का जश्न मनाएं

Amazon SageMaker कैनवास के साथ कोई कोड ML मॉडल नहीं बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना

नई - नो-कोड जेनरेटिव एआई क्षमताएं अब अमेज़ॅन सेजमेकर कैनवस में उपलब्ध हैं | अमेज़न वेब सेवाएँ

Amazon SageMaker ML मॉडल के लिए परीक्षण दृष्टिकोण

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा