अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़न वेब सेवाएँ

अमेज़न SageMaker अपाचे स्पार्क के साथ वितरित डेटा प्रोसेसिंग नौकरियों को चलाने के कई तरीके प्रदान करता है, जो बड़े डेटा प्रोसेसिंग के लिए एक लोकप्रिय वितरित कंप्यूटिंग ढांचा है।

आप स्पार्क एप्लिकेशन को इंटरैक्टिव तरीके से चला सकते हैं अमेज़ॅन सैजमेकर स्टूडियो कनेक्ट करके सेजमेकर स्टूडियो नोटबुक और एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र सर्वर रहित क्लस्टर के साथ स्पार्क जॉब चलाने के लिए। इंटरैक्टिव सत्रों के साथ, आप क्लस्टर प्रबंधन के बारे में चिंता किए बिना, बड़े डेटासेट को आसानी से संसाधित करने के लिए अपाचे स्पार्क या रे चुन सकते हैं।

वैकल्पिक रूप से, यदि आपको पर्यावरण पर अधिक नियंत्रण की आवश्यकता है, तो आप स्पार्क अनुप्रयोगों को पूरी तरह से प्रबंधित वितरित क्लस्टर पर बैच नौकरियों के रूप में चलाने के लिए पूर्व-निर्मित सेजमेकर स्पार्क कंटेनर का उपयोग कर सकते हैं अमेज़न SageMaker प्रसंस्करण. यह विकल्प आपको कई प्रकार के उदाहरणों (कंप्यूट अनुकूलित, मेमोरी अनुकूलित, और अधिक), क्लस्टर में नोड्स की संख्या और क्लस्टर कॉन्फ़िगरेशन का चयन करने की अनुमति देता है, जिससे डेटा प्रोसेसिंग और मॉडल प्रशिक्षण के लिए अधिक लचीलापन सक्षम होता है।

अंत में, आप स्टूडियो नोटबुक को कनेक्ट करके स्पार्क एप्लिकेशन चला सकते हैं अमेज़ॅन ईएमआर समूहों, या अपने स्पार्क क्लस्टर को चालू करके अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी 2)।

ये सभी विकल्प आपको आमतौर पर नामित वेब-आधारित उपयोगकर्ता इंटरफ़ेस के माध्यम से उनका विश्लेषण करने के लिए स्पार्क इवेंट लॉग को उत्पन्न और संग्रहीत करने की अनुमति देते हैं स्पार्क यूआई, जो स्पार्क अनुप्रयोगों की प्रगति की निगरानी करने, संसाधन उपयोग को ट्रैक करने और डीबग त्रुटियों को ट्रैक करने के लिए स्पार्क हिस्ट्री सर्वर चलाता है।

इस पोस्ट में, हम एक साझा करते हैं समाधान सेजमेकर स्टूडियो पर स्पार्क हिस्ट्री सर्वर को स्थापित करने और चलाने के लिए और सेजमेकर स्टूडियो आईडीई से सीधे स्पार्क यूआई तक पहुंचने के लिए, विभिन्न एडब्ल्यूएस सेवाओं (एडब्ल्यूएस ग्लू इंटरएक्टिव सेशंस, सेजमेकर प्रोसेसिंग जॉब्स और अमेज़ॅन ईएमआर) द्वारा उत्पादित स्पार्क लॉग का विश्लेषण करने और एक में संग्रहीत करने के लिए। अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।

समाधान अवलोकन

समाधान स्पार्क हिस्ट्री सर्वर को सेजमेकर स्टूडियो में ज्यूपिटर सर्वर ऐप में एकीकृत करता है। यह उपयोगकर्ताओं को सीधे सेजमेकर स्टूडियो आईडीई से स्पार्क लॉग तक पहुंचने की अनुमति देता है। एकीकृत स्पार्क हिस्ट्री सर्वर निम्नलिखित का समर्थन करता है:

  • सेजमेकर प्रोसेसिंग स्पार्क जॉब्स द्वारा उत्पन्न लॉग तक पहुंच
  • AWS ग्लू स्पार्क अनुप्रयोगों द्वारा उत्पन्न लॉग तक पहुँचना
  • स्व-प्रबंधित स्पार्क क्लस्टर और अमेज़ॅन ईएमआर द्वारा उत्पन्न लॉग तक पहुंच

एक उपयोगिता कमांड लाइन इंटरफ़ेस (सीएलआई) कहा जाता है sm-spark-cli सेजमेकर स्टूडियो सिस्टम टर्मिनल से स्पार्क यूआई के साथ इंटरैक्ट करने के लिए भी प्रदान किया गया है। sm-spark-cli सेजमेकर स्टूडियो को छोड़े बिना स्पार्क हिस्ट्री सर्वर को प्रबंधित करने में सक्षम बनाता है।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

समाधान में शेल स्क्रिप्ट शामिल हैं जो निम्नलिखित क्रियाएं करती हैं:

  • सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए या सेजमेकर स्टूडियो साझा स्थान के लिए ज्यूपिटर सर्वर पर स्पार्क स्थापित करें
  • स्थापित करें sm-spark-cli उपयोगकर्ता प्रोफ़ाइल या साझा स्थान के लिए

सेजमेकर स्टूडियो डोमेन में स्पार्क यूआई को मैन्युअल रूप से इंस्टॉल करें

सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. चुनें सिस्टम टर्मिनल सेजमेकर स्टूडियो लॉन्चर से।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. सिस्टम टर्मिनल में निम्नलिखित कमांड चलाएँ:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

आदेशों को पूरा होने में कुछ सेकंड लगेंगे.

  1. जब इंस्टॉलेशन पूरा हो जाए, तो आप दिए गए का उपयोग करके स्पार्क यूआई शुरू कर सकते हैं sm-spark-cli और निम्नलिखित कोड चलाकर इसे वेब ब्राउज़र से एक्सेस करें:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

S3 स्थान जहां SageMaker प्रोसेसिंग, AWS ग्लू, या Amazon EMR द्वारा निर्मित इवेंट लॉग संग्रहीत हैं, स्पार्क एप्लिकेशन चलाते समय कॉन्फ़िगर किया जा सकता है।

सेजमेकर स्टूडियो नोटबुक और एडब्ल्यूएस ग्लू इंटरएक्टिव सेशन के लिए, आप इसका उपयोग करके सीधे नोटबुक से स्पार्क इवेंट लॉग स्थान सेट कर सकते हैं। sparkmagic गिरी।

RSI sparkmagic कर्नेल में नोटबुक के माध्यम से दूरस्थ स्पार्क क्लस्टर के साथ बातचीत करने के लिए उपकरणों का एक सेट होता है। यह जादू प्रदान करता है (%spark, %sql) स्पार्क कोड को चलाने, SQL क्वेरी निष्पादित करने और निष्पादक मेमोरी और कोर जैसी स्पार्क सेटिंग्स को कॉन्फ़िगर करने के लिए आदेश देता है।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

सेजमेकर प्रोसेसिंग कार्य के लिए, आप सीधे सेजमेकर पायथन एसडीके से स्पार्क इवेंट लॉग स्थान को कॉन्फ़िगर कर सकते हैं।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अतिरिक्त जानकारी के लिए AWS दस्तावेज़ देखें:

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

आप स्पार्क यूआई तक पहुंचने के लिए जेनरेट किया गया यूआरएल चुन सकते हैं।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

निम्नलिखित स्क्रीनशॉट स्पार्क यूआई का एक उदाहरण दिखाता है।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

आप इसका उपयोग करके स्पार्क हिस्ट्री सर्वर की स्थिति की जांच कर सकते हैं sm-spark-cli status स्टूडियो सिस्टम टर्मिनल में कमांड।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

जरूरत पड़ने पर आप स्पार्क हिस्ट्री सर्वर को बंद भी कर सकते हैं।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

सेजमेकर स्टूडियो डोमेन में उपयोगकर्ताओं के लिए स्पार्क यूआई इंस्टॉलेशन को स्वचालित करें

एक आईटी व्यवस्थापक के रूप में, आप इसका उपयोग करके सेजमेकर स्टूडियो उपयोगकर्ताओं के लिए इंस्टॉलेशन को स्वचालित कर सकते हैं जीवन चक्र विन्यास. यह सेजमेकर स्टूडियो डोमेन के अंतर्गत सभी उपयोगकर्ता प्रोफ़ाइलों के लिए या विशिष्ट प्रोफ़ाइलों के लिए किया जा सकता है। देखना जीवनचक्र कॉन्फ़िगरेशन का उपयोग करके अमेज़न सेजमेकर स्टूडियो को अनुकूलित करें अधिक जानकारी के लिए.

आप इससे एक जीवनचक्र कॉन्फ़िगरेशन बना सकते हैं इंस्टॉल-इतिहास-सर्वर.श स्क्रिप्ट बनाएं और इसे मौजूदा सेजमेकर स्टूडियो डोमेन से संलग्न करें। इंस्टॉलेशन डोमेन में सभी उपयोगकर्ता प्रोफ़ाइल के लिए चलाया जाता है।

के साथ कॉन्फ़िगर किए गए टर्मिनल से AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) और उपयुक्त अनुमतियाँ, निम्नलिखित आदेश चलाएँ:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

ज्यूपिटर सर्वर पुनरारंभ होने के बाद, स्पार्क यूआई और sm-spark-cli आपके सेजमेकर स्टूडियो परिवेश में उपलब्ध होगा।

क्लीन अप

इस अनुभाग में, हम आपको दिखाते हैं कि सेजमेकर स्टूडियो डोमेन में स्पार्क यूआई को मैन्युअल रूप से या स्वचालित रूप से कैसे साफ किया जाए।

स्पार्क यूआई को मैन्युअल रूप से अनइंस्टॉल करें

सेजमेकर स्टूडियो में स्पार्क यूआई को मैन्युअल रूप से अनइंस्टॉल करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. चुनें सिस्टम टर्मिनल सेजमेकर स्टूडियो लॉन्चर में।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. सिस्टम टर्मिनल में निम्नलिखित कमांड चलाएँ:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

सभी सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए स्पार्क यूआई को स्वचालित रूप से अनइंस्टॉल करें

सभी उपयोगकर्ता प्रोफाइल के लिए सेजमेकर स्टूडियो में स्पार्क यूआई को स्वचालित रूप से अनइंस्टॉल करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. SageMaker कंसोल पर, चुनें डोमेन नेविगेशन फलक में, फिर सेजमेकर स्टूडियो डोमेन चुनें।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. डोमेन विवरण पृष्ठ पर, पर जाएँ वातावरण टैब.
  2. सेजमेकर स्टूडियो पर स्पार्क यूआई के लिए जीवनचक्र कॉन्फ़िगरेशन का चयन करें।
  3. चुनें अलग करें.

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

  1. सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए ज्यूपिटर सर्वर ऐप्स को हटाएं और पुनरारंभ करें।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

निष्कर्ष

इस पोस्ट में, हमने एक समाधान साझा किया है जिसका उपयोग आप सेजमेकर स्टूडियो पर स्पार्क यूआई को तुरंत स्थापित करने के लिए कर सकते हैं। सेजमेकर पर होस्ट किए गए स्पार्क यूआई के साथ, मशीन लर्निंग (एमएल) और डेटा इंजीनियरिंग टीमें कहीं से भी स्पार्क लॉग तक पहुंचने और उनका विश्लेषण करने और अपने प्रोजेक्ट डिलीवरी को तेज करने के लिए स्केलेबल क्लाउड कंप्यूट का उपयोग कर सकती हैं। आईटी व्यवस्थापक क्लाउड में समाधान के प्रावधान को मानकीकृत और तेज कर सकते हैं और एमएल परियोजनाओं के लिए कस्टम विकास वातावरण के प्रसार से बच सकते हैं।

इस पोस्ट के भाग के रूप में दिखाए गए सभी कोड उपलब्ध हैं गिटहब भंडार.


लेखक के बारे में

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.ग्यूसेप एंजेलो पोर्सेलि अमेज़ॅन वेब सर्विसेज के लिए एक प्रमुख मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। कई वर्षों की सॉफ्टवेयर इंजीनियरिंग और एमएल पृष्ठभूमि के साथ, वह किसी भी आकार के ग्राहकों के साथ उनकी व्यावसायिक और तकनीकी जरूरतों को समझने और एआई और एमएल समाधान डिजाइन करने के लिए काम करते हैं जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उन्होंने एमएलओपीएस, कंप्यूटर विज़न और एनएलपी सहित विभिन्न डोमेन में परियोजनाओं पर काम किया है, जिसमें एडब्ल्यूएस सेवाओं का एक व्यापक सेट शामिल है। अपने खाली समय में, ग्यूसेप को फुटबॉल खेलना पसंद है।

अमेज़ॅन सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.ब्रूनो पिस्टन मिलान स्थित AWS के लिए एक AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट है। वह किसी भी आकार के ग्राहकों के साथ काम करते हैं, उन्हें उनकी तकनीकी जरूरतों को समझने और एआई और एमएल समाधान डिजाइन करने में मदद करते हैं जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उनकी विशेषज्ञता के क्षेत्र में मशीन लर्निंग एंड टू एंड, मशीन लर्निंग एंडुस्ट्रियलाइजेशन और जेनरेटिव एआई शामिल हैं। उसे अपने दोस्तों के साथ समय बिताना और नई जगहों की खोज करना, साथ ही नए गंतव्यों की यात्रा करना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग