सर्वर रहित एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र प्लेटोब्लॉकचैन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर स्टूडियो में बड़े पैमाने पर डेटा तैयार करें। लंबवत खोज। ऐ.

सर्वर रहित AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करके Amazon SageMaker Studio में बड़े पैमाने पर डेटा तैयार करें

अमेज़ॅन सैजमेकर स्टूडियो मशीन लर्निंग (एमएल) के लिए पहला पूर्ण एकीकृत विकास वातावरण (आईडीई) है। यह एक एकल, वेब-आधारित दृश्य इंटरफ़ेस प्रदान करता है जहां आप डेटा तैयार करने और निर्माण, प्रशिक्षण और मॉडल की तैनाती सहित सभी एमएल विकास चरणों को पूरा कर सकते हैं।

एडब्ल्यूएस गोंद एक सर्वर रहित डेटा एकीकरण सेवा है जो एनालिटिक्स, एमएल और एप्लिकेशन डेवलपमेंट के लिए डेटा को खोजना, तैयार करना और संयोजित करना आसान बनाती है। एडब्ल्यूएस गोंद आपको विभिन्न क्षमताओं का उपयोग करके अपने डेटा झीलों और डेटा पाइपलाइनों में भंडारण के लिए डेटा एकत्र करने, बदलने, शुद्ध करने और डेटा तैयार करने में सक्षम बनाता है, जिसमें शामिल हैं बिल्ट-इन ट्रांसफॉर्म्स.

डेटा इंजीनियर और डेटा वैज्ञानिक अब एडब्ल्यूएस ग्लू द्वारा प्रबंधित सर्वर रहित स्पार्क सत्रों के साथ अपने स्टूडियो नोटबुक के अंतर्निर्मित एकीकरण का उपयोग करके बड़े पैमाने पर डेटा तैयार कर सकते हैं। सेकंड में शुरू करना और निष्क्रिय होने पर स्वचालित रूप से गणना रोकना, एडब्ल्यूएस गोंद इंटरैक्टिव सत्र स्टूडियो के भीतर स्केलेबल डेटा तैयार करने के लिए ऑन-डिमांड, उच्च-स्केलेबल, सर्वर रहित स्पार्क बैकएंड प्रदान करें। स्टूडियो नोटबुक्स पर AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करने के उल्लेखनीय लाभों में शामिल हैं:

  • प्रावधान या प्रबंधन के लिए कोई क्लस्टर नहीं
  • भुगतान करने के लिए कोई निष्क्रिय क्लस्टर नहीं
  • कोई अप-फ्रंट कॉन्फ़िगरेशन की आवश्यकता नहीं है
  • समान विकास परिवेश के लिए कोई संसाधन विवाद नहीं
  • ठीक उसी सर्वर रहित स्पार्क रनटाइम और प्लेटफ़ॉर्म जैसे AWS ग्लू एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड (ETL) जॉब

इस पोस्ट में, हम आपको दिखाते हैं कि सर्वर रहित AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करके स्टूडियो में बड़े पैमाने पर डेटा कैसे तैयार किया जाता है।

समाधान अवलोकन

इस समाधान को लागू करने के लिए, आप निम्न उच्च-स्तरीय चरणों को पूरा करते हैं:

  1. अपना अपडेट करें AWS पहचान और अभिगम प्रबंधन (IAM) भूमिका अनुमतियाँ।
  2. एक एडब्ल्यूएस गोंद इंटरैक्टिव सत्र कर्नेल लॉन्च करें।
  3. अपने इंटरैक्टिव सत्र को कॉन्फ़िगर करें।
  4. अपने इंटरैक्टिव सत्र को अनुकूलित करें और एक स्केलेबल डेटा तैयारी कार्यभार चलाएं।

अपनी IAM भूमिका अनुमतियां अपडेट करें

शुरू करने के लिए, आपको आवश्यक अनुमतियों के साथ अपने स्टूडियो उपयोगकर्ता की IAM निष्पादन भूमिका को अपडेट करना होगा। विस्तृत निर्देशों के लिए देखें सेजमेकर स्टूडियो में ग्लू इंटरएक्टिव सत्रों के लिए अनुमतियाँ.

आप पहले प्रबंधित नीतियों को अपनी निष्पादन भूमिका में जोड़ते हैं:

  1. IAM कंसोल पर, चुनें भूमिकाओं नेविगेशन फलक में
  2. स्टूडियो निष्पादन भूमिका ढूंढें जिसका आप उपयोग करेंगे, और भूमिका सारांश पृष्ठ पर जाने के लिए भूमिका का नाम चुनें।
  3. पर अनुमतियाँ टैब, पर अनुमतियां जोड़ें मेनू, चुनें नीतियों को संलग्न करें.
  4. प्रबंधित नीतियों का चयन करें AmazonSageMakerFullAccess और AwsGlueSessionUserRestrictedServiceRole
  5. चुनें नीतियों को संलग्न करें.
    सारांश पृष्ठ आपकी नई जोड़ी गई प्रबंधित नीतियों को दिखाता है। अब आप एक कस्टम नीति जोड़ें और इसे अपनी निष्पादन भूमिका में संलग्न करें।
  6. पर अनुमतियां जोड़ें मेनू, चुनें इनलाइन नीति बनाएं.
  7. पर JSON टैब, निम्न नीति दर्ज करें:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Sid": "VisualEditor0",
                "Effect": "Allow",
                "Action": [
                    "iam:GetRole",
                    "iam:PassRole",
                    "sts:GetCallerIdentity"
                ],
                "Resource": "*"
            }
        ]
    }

  8. अपनी भूमिका के विश्वास संबंध को संशोधित करें:
    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Principal": {
                    "Service": [
                        "glue.amazonaws.com",
                        "sagemaker.amazonaws.com"
                    ]
                },
                "Action": "sts:AssumeRole"
            }
        ]
    }

AWS ग्लू इंटरएक्टिव सत्र कर्नेल लॉन्च करें

अगर आपके स्टूडियो डोमेन में पहले से मौजूद उपयोगकर्ता हैं, तो आपको उन्हें रखने की आवश्यकता हो सकती है शट डाउन करें और उनके ज्यूपिटर सर्वर को पुनरारंभ करें नई नोटबुक कर्नेल छवियों को लेने के लिए।

पुनः लोड करने पर, आप एक नया स्टूडियो नोटबुक बना सकते हैं और अपना पसंदीदा कर्नेल चुनें. बिल्ट-इन SparkAnalytics 1.0 छवि अब उपलब्ध होनी चाहिए, और आप अपना पसंदीदा एडब्ल्यूएस गोंद कर्नेल चुन सकते हैं (गोंद स्काला स्पार्क or गोंद पायस्पार्क).

अपना इंटरैक्टिव सत्र कॉन्फ़िगर करें

आरंभ करने से पहले आप अपने AWS ग्लू इंटरएक्टिव सत्र को नोटबुक सेल मैजिक के साथ आसानी से कॉन्फ़िगर कर सकते हैं। मैजिक छोटे कमांड हैं जो जुपिटर कोशिकाओं की शुरुआत में % के साथ उपसर्ग करते हैं जो पर्यावरण को नियंत्रित करने के लिए शॉर्टकट प्रदान करते हैं। AWS ग्लू इंटरएक्टिव सत्रों में, सभी कॉन्फ़िगरेशन आवश्यकताओं के लिए मैजिक का उपयोग किया जाता है, जिसमें शामिल हैं:

  • %क्षेत्र - एडब्ल्यूएस क्षेत्र जिसमें सत्र शुरू करना है। डिफ़ॉल्ट स्टूडियो क्षेत्र है।
  • %iam_भूमिका - आपके सत्र को चलाने के लिए IAM भूमिका ARN। डिफ़ॉल्ट उपयोगकर्ता की सेजमेकर निष्पादन भूमिका है।
  • % कार्यकर्ता_प्रकार - एडब्ल्यूएस गोंद कार्यकर्ता प्रकार. डिफ़ॉल्ट मानक है।
  • श्रमिकों की %संख्या - नौकरी चलने पर आवंटित श्रमिकों की संख्या। डिफ़ॉल्ट पांच है।
  • %निष्क्रिय समय - निष्क्रियता के मिनटों की संख्या जिसके बाद एक सत्र का समय समाप्त हो जाएगा। डिफ़ॉल्ट 2,880 मिनट है।
  • %अतिरिक्त_पायथन_मॉड्यूल - आपके क्लस्टर में शामिल करने के लिए अतिरिक्त पायथन मॉड्यूल की अल्पविराम से अलग की गई सूची। यह PyPi or . से हो सकता है अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
  • %%कॉन्फ़िगर - एक JSON-स्वरूपित शब्दकोश जिसमें एडब्ल्यूएस गोंद-विशिष्ट कॉन्फ़िगरेशन पैरामीटर एक सत्र के लिए।

इस कर्नेल के लिए विन्यास योग्य मैजिक पैरामीटर की एक विस्तृत सूची के लिए, का उपयोग करें %help आपकी नोटबुक में जादू।

आपका एडब्ल्यूएस ग्लू इंटरेक्टिव सत्र तब तक शुरू नहीं होगा जब तक कि पहला गैर-मैजिक सेल नहीं चलाया जाता।

अपने इंटरैक्टिव सत्र को अनुकूलित करें और डेटा तैयारी कार्यभार चलाएं

एक उदाहरण के रूप में, निम्नलिखित नोटबुक सेल दिखाते हैं कि आप अपने AWS ग्लू इंटरएक्टिव सत्र को कैसे अनुकूलित कर सकते हैं और एक स्केलेबल डेटा तैयारी कार्यभार चला सकते हैं। इस उदाहरण में, हम किसी दिए गए शहर के लिए वायु गुणवत्ता डेटा एकत्र करने के लिए एक ईटीएल कार्य करते हैं, जिसे दिन के घंटे के आधार पर समूहीकृत किया जाता है।

हम रीयल-टाइम डिबगिंग के लिए अपने स्पार्क लॉग को S3 बकेट में सहेजने के लिए अपने सत्र को कॉन्फ़िगर करते हैं, जिसे हम इस पोस्ट में बाद में देखते हैं। सुनिश्चित करें कि iam_role जो आपके AWS ग्लू सत्र को चला रहा है, उसके पास निर्दिष्ट S3 बकेट तक लेखन पहुंच है।

%help

%session_id_prefix air-analysis-
%glue_version 3.0
%idle_timeout 60
%%configure
{
"--enable-spark-ui": "true",
"--spark-event-logs-path": "s3://<BUCKET>/gis-spark-logs/"
}

इसके बाद, हम अपने डेटासेट को सीधे Amazon S3 से लोड करते हैं। वैकल्पिक रूप से, आप कर सकते थे अपने एडब्ल्यूएस गोंद डेटा कैटलॉग का उपयोग करके डेटा लोड करें.

from pyspark.sql.functions import split, lower, hour
print(spark.version)
day_to_analyze = "2022-01-05"
df = spark.read.json(f"s3://openaq-fetches/realtime-gzipped/{day_to_analyze}/1641409725.ndjson.gz")
df_air = spark.read.schema(df.schema).json(f"s3://openaq-fetches/realtime-gzipped/{day_to_analyze}/*")

अंत में, हम अपने रूपांतरित डेटासेट को आउटपुट बकेट लोकेशन पर लिखते हैं जिसे हमने परिभाषित किया है:

df_city = df_air.filter(lower((df_air.city)).contains('delhi')).filter(df_air.parameter == "no2").cache()
df_avg = df_city.withColumn("Hour", hour(df_city.date.utc)).groupBy("Hour").avg("value").withColumnRenamed("avg(value)", "no2_avg")
df_avg.sort("Hour").show()

# Examples of reading / writing to other data stores: 
# https://github.com/aws-samples/aws-glue-samples/tree/master/examples/notebooks

df_avg.write.parquet(f"s3://<BUCKET>/{day_to_analyze}.parquet")

अपना काम पूरा करने के बाद, आप केवल स्टूडियो नोटबुक कर्नेल को बंद करके अपने AWS ग्लू इंटरएक्टिव सत्र को तुरंत समाप्त कर सकते हैं, या आप इसका उपयोग कर सकते हैं %stop_session जादू.

डिबगिंग और स्पार्क यूआई

पिछले उदाहरण में, हमने निर्दिष्ट किया था ”--enable-spark-ui”: “true” एक के साथ तर्क "--spark-event-logs-path": location. यह सत्र लॉग रिकॉर्ड करने के लिए हमारे AWS ग्लू सत्र को कॉन्फ़िगर करता है ताकि हम वास्तविक समय में अपने AWS ग्लू जॉब की निगरानी और डीबग करने के लिए स्पार्क UI का उपयोग कर सकें।

उन स्पार्क लॉग को लॉन्च करने और पढ़ने की प्रक्रिया के लिए, देखें स्पार्क इतिहास सर्वर लॉन्च करना. निम्नलिखित स्क्रीनशॉट में, हमने एक स्थानीय डॉकर कंटेनर लॉन्च किया है जिसमें S3 बकेट को पढ़ने की अनुमति है जिसमें हमारे लॉग शामिल हैं। वैकल्पिक रूप से, आप एक होस्ट कर सकते हैं अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) ऐसा करने के लिए उदाहरण, जैसा कि पिछले लिंक किए गए दस्तावेज़ीकरण में वर्णित है।

सर्वर रहित एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र प्लेटोब्लॉकचैन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर स्टूडियो में बड़े पैमाने पर डेटा तैयार करें। लंबवत खोज। ऐ.

मूल्य निर्धारण

जब आप स्टूडियो नोटबुक्स पर AWS ग्लू इंटरएक्टिव सत्रों का उपयोग करते हैं, तो आपसे AWS ग्लू और स्टूडियो नोटबुक पर संसाधन उपयोग के लिए अलग से शुल्क लिया जाता है।

एडब्ल्यूएस ग्लू इंटरएक्टिव सत्रों के लिए एडब्ल्यूएस शुल्क सत्र कितने समय तक सक्रिय है और डेटा प्रोसेसिंग यूनिट (डीपीयू) की संख्या के आधार पर उपयोग किया जाता है। आपसे आपके कार्यभार को चलाने के लिए उपयोग किए जाने वाले डीपीयू की संख्या के लिए प्रति घंटा की दर से शुल्क लिया जाता है, जो 1 सेकंड की वृद्धि में बिल किया जाता है। एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र 5 डीपीयू का डिफ़ॉल्ट असाइन करते हैं और न्यूनतम 2 डीपीयू की आवश्यकता होती है। प्रत्येक इंटरैक्टिव सत्र के लिए न्यूनतम 1 मिनट की बिलिंग अवधि भी है। एडब्ल्यूएस गोंद दरों और मूल्य निर्धारण के उदाहरण देखने के लिए, या एडब्ल्यूएस मूल्य निर्धारण कैलकुलेटर का उपयोग करके अपनी लागतों का अनुमान लगाने के लिए, देखें एडब्ल्यूएस गोंद मूल्य निर्धारण.

आपकी स्टूडियो नोटबुक EC2 इंस्टेंस पर चलती है और उपयोग की अवधि के आधार पर आपके द्वारा चुने गए इंस्टेंस प्रकार के लिए आपसे शुल्क लिया जाता है। जब आप इसे चुनते हैं तो स्टूडियो आपको एक डिफ़ॉल्ट ईसी2 इंस्टेंस प्रकार एमएल-टी3-माध्यम प्रदान करता है SparkAnalytics छवि और संबंधित कर्नेल। आप अपने वर्कलोड के अनुरूप अपने स्टूडियो नोटबुक के इंस्टेंस प्रकार को बदल सकते हैं। सेजमेकर स्टूडियो मूल्य निर्धारण के बारे में जानकारी के लिए देखें अमेज़न SageMaker मूल्य निर्धारण.

निष्कर्ष

एडब्ल्यूएस ग्लू इंटरएक्टिव सत्रों के साथ स्टूडियो नोटबुक का मूल एकीकरण डेटा वैज्ञानिकों और डेटा इंजीनियरों के लिए निर्बाध और स्केलेबल सर्वर रहित डेटा तैयार करने की सुविधा प्रदान करता है। हम आपको स्टूडियो में इस नई कार्यक्षमता को आज़माने के लिए प्रोत्साहित करते हैं!

देख एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र का उपयोग करके डेटा तैयार करें देखें।


लेखक के बारे में

शॉन मॉर्गनशॉन मॉर्गन एडब्ल्यूएस में वरिष्ठ एमएल सॉल्यूशंस आर्किटेक्ट हैं। उनके पास सेमीकंडक्टर और अकादमिक अनुसंधान क्षेत्रों में अनुभव है, और ग्राहकों को एडब्ल्यूएस पर अपने लक्ष्यों तक पहुंचने में मदद करने के लिए अपने अनुभव का उपयोग करते हैं। अपने खाली समय में सीन एक सक्रिय ओपन सोर्स योगदानकर्ता / अनुरक्षक है और TensorFlow Addons के लिए विशेष रुचि समूह का नेतृत्व है।

सर्वर रहित एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र प्लेटोब्लॉकचैन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर स्टूडियो में बड़े पैमाने पर डेटा तैयार करें। लंबवत खोज। ऐ.सुमेधा स्वामी Amazon Web Services में प्रधान उत्पाद प्रबंधक हैं। वह इंटरेक्टिव डेटा साइंस और डेटा इंजीनियरिंग वर्कफ़्लोज़ के लिए पसंद के आईडीई में इसे बनाने के लिए सेजमेकर स्टूडियो टीम का नेतृत्व करता है। उन्होंने पिछले 15 वर्षों में मशीन लर्निंग का उपयोग करके ग्राहक-जुनूनी उपभोक्ता और उद्यम उत्पादों का निर्माण किया है। अपने खाली समय में वह अमेरिकी दक्षिण-पश्चिम के अद्भुत भूविज्ञान की तस्वीरें लेना पसंद करते हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग

टॉर्चसर्व के साथ अमेज़ॅन सेजमेकर मल्टी-मॉडल एंडपॉइंट का उपयोग करके जीपीयू पर कई जेनरेटिव एआई मॉडल चलाएं और अनुमान लागत में 75% तक की बचत करें | अमेज़न वेब सेवाएँ

स्रोत नोड: 1887176
समय टिकट: सितम्बर 6, 2023