अमेज़न SageMaker अपाचे स्पार्क के साथ वितरित डेटा प्रोसेसिंग नौकरियों को चलाने के कई तरीके प्रदान करता है, जो बड़े डेटा प्रोसेसिंग के लिए एक लोकप्रिय वितरित कंप्यूटिंग ढांचा है।
आप स्पार्क एप्लिकेशन को इंटरैक्टिव तरीके से चला सकते हैं अमेज़ॅन सैजमेकर स्टूडियो कनेक्ट करके सेजमेकर स्टूडियो नोटबुक और एडब्ल्यूएस ग्लू इंटरएक्टिव सत्र सर्वर रहित क्लस्टर के साथ स्पार्क जॉब चलाने के लिए। इंटरैक्टिव सत्रों के साथ, आप क्लस्टर प्रबंधन के बारे में चिंता किए बिना, बड़े डेटासेट को आसानी से संसाधित करने के लिए अपाचे स्पार्क या रे चुन सकते हैं।
वैकल्पिक रूप से, यदि आपको पर्यावरण पर अधिक नियंत्रण की आवश्यकता है, तो आप स्पार्क अनुप्रयोगों को पूरी तरह से प्रबंधित वितरित क्लस्टर पर बैच नौकरियों के रूप में चलाने के लिए पूर्व-निर्मित सेजमेकर स्पार्क कंटेनर का उपयोग कर सकते हैं अमेज़न SageMaker प्रसंस्करण. यह विकल्प आपको कई प्रकार के उदाहरणों (कंप्यूट अनुकूलित, मेमोरी अनुकूलित, और अधिक), क्लस्टर में नोड्स की संख्या और क्लस्टर कॉन्फ़िगरेशन का चयन करने की अनुमति देता है, जिससे डेटा प्रोसेसिंग और मॉडल प्रशिक्षण के लिए अधिक लचीलापन सक्षम होता है।
अंत में, आप स्टूडियो नोटबुक को कनेक्ट करके स्पार्क एप्लिकेशन चला सकते हैं अमेज़ॅन ईएमआर समूहों, या अपने स्पार्क क्लस्टर को चालू करके अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी 2)।
ये सभी विकल्प आपको आमतौर पर नामित वेब-आधारित उपयोगकर्ता इंटरफ़ेस के माध्यम से उनका विश्लेषण करने के लिए स्पार्क इवेंट लॉग को उत्पन्न और संग्रहीत करने की अनुमति देते हैं स्पार्क यूआई, जो स्पार्क अनुप्रयोगों की प्रगति की निगरानी करने, संसाधन उपयोग को ट्रैक करने और डीबग त्रुटियों को ट्रैक करने के लिए स्पार्क हिस्ट्री सर्वर चलाता है।
इस पोस्ट में, हम एक साझा करते हैं समाधान सेजमेकर स्टूडियो पर स्पार्क हिस्ट्री सर्वर को स्थापित करने और चलाने के लिए और सेजमेकर स्टूडियो आईडीई से सीधे स्पार्क यूआई तक पहुंचने के लिए, विभिन्न एडब्ल्यूएस सेवाओं (एडब्ल्यूएस ग्लू इंटरएक्टिव सेशंस, सेजमेकर प्रोसेसिंग जॉब्स और अमेज़ॅन ईएमआर) द्वारा उत्पादित स्पार्क लॉग का विश्लेषण करने और एक में संग्रहीत करने के लिए। अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
समाधान अवलोकन
समाधान स्पार्क हिस्ट्री सर्वर को सेजमेकर स्टूडियो में ज्यूपिटर सर्वर ऐप में एकीकृत करता है। यह उपयोगकर्ताओं को सीधे सेजमेकर स्टूडियो आईडीई से स्पार्क लॉग तक पहुंचने की अनुमति देता है। एकीकृत स्पार्क हिस्ट्री सर्वर निम्नलिखित का समर्थन करता है:
- सेजमेकर प्रोसेसिंग स्पार्क जॉब्स द्वारा उत्पन्न लॉग तक पहुंच
- AWS ग्लू स्पार्क अनुप्रयोगों द्वारा उत्पन्न लॉग तक पहुँचना
- स्व-प्रबंधित स्पार्क क्लस्टर और अमेज़ॅन ईएमआर द्वारा उत्पन्न लॉग तक पहुंच
एक उपयोगिता कमांड लाइन इंटरफ़ेस (सीएलआई) कहा जाता है sm-spark-cli
सेजमेकर स्टूडियो सिस्टम टर्मिनल से स्पार्क यूआई के साथ इंटरैक्ट करने के लिए भी प्रदान किया गया है। sm-spark-cli
सेजमेकर स्टूडियो को छोड़े बिना स्पार्क हिस्ट्री सर्वर को प्रबंधित करने में सक्षम बनाता है।
समाधान में शेल स्क्रिप्ट शामिल हैं जो निम्नलिखित क्रियाएं करती हैं:
- सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए या सेजमेकर स्टूडियो साझा स्थान के लिए ज्यूपिटर सर्वर पर स्पार्क स्थापित करें
- स्थापित करें
sm-spark-cli
उपयोगकर्ता प्रोफ़ाइल या साझा स्थान के लिए
सेजमेकर स्टूडियो डोमेन में स्पार्क यूआई को मैन्युअल रूप से इंस्टॉल करें
सेजमेकर स्टूडियो पर स्पार्क यूआई होस्ट करने के लिए, निम्नलिखित चरणों को पूरा करें:
- चुनें सिस्टम टर्मिनल सेजमेकर स्टूडियो लॉन्चर से।
- सिस्टम टर्मिनल में निम्नलिखित कमांड चलाएँ:
आदेशों को पूरा होने में कुछ सेकंड लगेंगे.
- जब इंस्टॉलेशन पूरा हो जाए, तो आप दिए गए का उपयोग करके स्पार्क यूआई शुरू कर सकते हैं
sm-spark-cli
और निम्नलिखित कोड चलाकर इसे वेब ब्राउज़र से एक्सेस करें:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
S3 स्थान जहां SageMaker प्रोसेसिंग, AWS ग्लू, या Amazon EMR द्वारा निर्मित इवेंट लॉग संग्रहीत हैं, स्पार्क एप्लिकेशन चलाते समय कॉन्फ़िगर किया जा सकता है।
सेजमेकर स्टूडियो नोटबुक और एडब्ल्यूएस ग्लू इंटरएक्टिव सेशन के लिए, आप इसका उपयोग करके सीधे नोटबुक से स्पार्क इवेंट लॉग स्थान सेट कर सकते हैं। sparkmagic
गिरी।
RSI sparkmagic
कर्नेल में नोटबुक के माध्यम से दूरस्थ स्पार्क क्लस्टर के साथ बातचीत करने के लिए उपकरणों का एक सेट होता है। यह जादू प्रदान करता है (%spark
, %sql
) स्पार्क कोड को चलाने, SQL क्वेरी निष्पादित करने और निष्पादक मेमोरी और कोर जैसी स्पार्क सेटिंग्स को कॉन्फ़िगर करने के लिए आदेश देता है।
सेजमेकर प्रोसेसिंग कार्य के लिए, आप सीधे सेजमेकर पायथन एसडीके से स्पार्क इवेंट लॉग स्थान को कॉन्फ़िगर कर सकते हैं।
अतिरिक्त जानकारी के लिए AWS दस्तावेज़ देखें:
आप स्पार्क यूआई तक पहुंचने के लिए जेनरेट किया गया यूआरएल चुन सकते हैं।
निम्नलिखित स्क्रीनशॉट स्पार्क यूआई का एक उदाहरण दिखाता है।
आप इसका उपयोग करके स्पार्क हिस्ट्री सर्वर की स्थिति की जांच कर सकते हैं sm-spark-cli status
स्टूडियो सिस्टम टर्मिनल में कमांड।
जरूरत पड़ने पर आप स्पार्क हिस्ट्री सर्वर को बंद भी कर सकते हैं।
सेजमेकर स्टूडियो डोमेन में उपयोगकर्ताओं के लिए स्पार्क यूआई इंस्टॉलेशन को स्वचालित करें
एक आईटी व्यवस्थापक के रूप में, आप इसका उपयोग करके सेजमेकर स्टूडियो उपयोगकर्ताओं के लिए इंस्टॉलेशन को स्वचालित कर सकते हैं जीवन चक्र विन्यास. यह सेजमेकर स्टूडियो डोमेन के अंतर्गत सभी उपयोगकर्ता प्रोफ़ाइलों के लिए या विशिष्ट प्रोफ़ाइलों के लिए किया जा सकता है। देखना जीवनचक्र कॉन्फ़िगरेशन का उपयोग करके अमेज़न सेजमेकर स्टूडियो को अनुकूलित करें अधिक जानकारी के लिए.
आप इससे एक जीवनचक्र कॉन्फ़िगरेशन बना सकते हैं इंस्टॉल-इतिहास-सर्वर.श स्क्रिप्ट बनाएं और इसे मौजूदा सेजमेकर स्टूडियो डोमेन से संलग्न करें। इंस्टॉलेशन डोमेन में सभी उपयोगकर्ता प्रोफ़ाइल के लिए चलाया जाता है।
के साथ कॉन्फ़िगर किए गए टर्मिनल से AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) और उपयुक्त अनुमतियाँ, निम्नलिखित आदेश चलाएँ:
ज्यूपिटर सर्वर पुनरारंभ होने के बाद, स्पार्क यूआई और sm-spark-cli
आपके सेजमेकर स्टूडियो परिवेश में उपलब्ध होगा।
क्लीन अप
इस अनुभाग में, हम आपको दिखाते हैं कि सेजमेकर स्टूडियो डोमेन में स्पार्क यूआई को मैन्युअल रूप से या स्वचालित रूप से कैसे साफ किया जाए।
स्पार्क यूआई को मैन्युअल रूप से अनइंस्टॉल करें
सेजमेकर स्टूडियो में स्पार्क यूआई को मैन्युअल रूप से अनइंस्टॉल करने के लिए, निम्नलिखित चरणों को पूरा करें:
- चुनें सिस्टम टर्मिनल सेजमेकर स्टूडियो लॉन्चर में।
- सिस्टम टर्मिनल में निम्नलिखित कमांड चलाएँ:
सभी सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए स्पार्क यूआई को स्वचालित रूप से अनइंस्टॉल करें
सभी उपयोगकर्ता प्रोफाइल के लिए सेजमेकर स्टूडियो में स्पार्क यूआई को स्वचालित रूप से अनइंस्टॉल करने के लिए, निम्नलिखित चरणों को पूरा करें:
- SageMaker कंसोल पर, चुनें डोमेन नेविगेशन फलक में, फिर सेजमेकर स्टूडियो डोमेन चुनें।
- डोमेन विवरण पृष्ठ पर, पर जाएँ वातावरण टैब.
- सेजमेकर स्टूडियो पर स्पार्क यूआई के लिए जीवनचक्र कॉन्फ़िगरेशन का चयन करें।
- चुनें अलग करें.
- सेजमेकर स्टूडियो उपयोगकर्ता प्रोफाइल के लिए ज्यूपिटर सर्वर ऐप्स को हटाएं और पुनरारंभ करें।
निष्कर्ष
इस पोस्ट में, हमने एक समाधान साझा किया है जिसका उपयोग आप सेजमेकर स्टूडियो पर स्पार्क यूआई को तुरंत स्थापित करने के लिए कर सकते हैं। सेजमेकर पर होस्ट किए गए स्पार्क यूआई के साथ, मशीन लर्निंग (एमएल) और डेटा इंजीनियरिंग टीमें कहीं से भी स्पार्क लॉग तक पहुंचने और उनका विश्लेषण करने और अपने प्रोजेक्ट डिलीवरी को तेज करने के लिए स्केलेबल क्लाउड कंप्यूट का उपयोग कर सकती हैं। आईटी व्यवस्थापक क्लाउड में समाधान के प्रावधान को मानकीकृत और तेज कर सकते हैं और एमएल परियोजनाओं के लिए कस्टम विकास वातावरण के प्रसार से बच सकते हैं।
इस पोस्ट के भाग के रूप में दिखाए गए सभी कोड उपलब्ध हैं गिटहब भंडार.
लेखक के बारे में
ग्यूसेप एंजेलो पोर्सेलि अमेज़ॅन वेब सर्विसेज के लिए एक प्रमुख मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। कई वर्षों की सॉफ्टवेयर इंजीनियरिंग और एमएल पृष्ठभूमि के साथ, वह किसी भी आकार के ग्राहकों के साथ उनकी व्यावसायिक और तकनीकी जरूरतों को समझने और एआई और एमएल समाधान डिजाइन करने के लिए काम करते हैं जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उन्होंने एमएलओपीएस, कंप्यूटर विज़न और एनएलपी सहित विभिन्न डोमेन में परियोजनाओं पर काम किया है, जिसमें एडब्ल्यूएस सेवाओं का एक व्यापक सेट शामिल है। अपने खाली समय में, ग्यूसेप को फुटबॉल खेलना पसंद है।
ब्रूनो पिस्टन मिलान स्थित AWS के लिए एक AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट है। वह किसी भी आकार के ग्राहकों के साथ काम करते हैं, उन्हें उनकी तकनीकी जरूरतों को समझने और एआई और एमएल समाधान डिजाइन करने में मदद करते हैं जो एडब्ल्यूएस क्लाउड और अमेज़ॅन मशीन लर्निंग स्टैक का सबसे अच्छा उपयोग करते हैं। उनकी विशेषज्ञता के क्षेत्र में मशीन लर्निंग एंड टू एंड, मशीन लर्निंग एंडुस्ट्रियलाइजेशन और जेनरेटिव एआई शामिल हैं। उसे अपने दोस्तों के साथ समय बिताना और नई जगहों की खोज करना, साथ ही नए गंतव्यों की यात्रा करना पसंद है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :हैस
- :है
- :कहाँ
- $यूपी
- 1
- 100
- 12
- 7
- 8
- 9
- a
- About
- पहुँच
- तक पहुँचने
- कार्रवाई
- अतिरिक्त
- अतिरिक्त जानकारी
- व्यवस्थापक
- AI
- ऐ / एमएल
- सब
- अनुमति देना
- की अनुमति देता है
- भी
- वीरांगना
- अमेज़ॅन EC2
- अमेज़ॅन ईएमआर
- अमेज़ॅन मशीन लर्निंग
- अमेज़न SageMaker
- अमेज़ॅन सैजमेकर स्टूडियो
- अमेज़ॅन वेब सेवा
- an
- विश्लेषण करें
- का विश्लेषण
- और
- कोई
- कहीं भी
- अपाचे
- अनुप्रयोग
- अनुप्रयोगों
- उपयुक्त
- क्षुधा
- हैं
- AS
- संलग्न करना
- को स्वचालित रूप से
- स्वतः
- उपलब्ध
- से बचने
- एडब्ल्यूएस
- एडब्ल्यूएस गोंद
- पृष्ठभूमि
- आधारित
- BE
- BEST
- बड़ा
- बड़ा डेटा
- विस्तृत
- ब्राउज़र
- व्यापार
- by
- बुलाया
- कर सकते हैं
- CD
- चेक
- चुनें
- बादल
- समूह
- कोड
- सामान्यतः
- पूरा
- गणना करना
- कंप्यूटर
- Computer Vision
- कंप्यूटिंग
- विन्यास
- कॉन्फ़िगर किया गया
- कनेक्ट कर रहा है
- होते हैं
- कंसोल
- कंटेनर
- शामिल हैं
- नियंत्रण
- बनाना
- रिवाज
- ग्राहक
- तिथि
- डेटा संसाधन
- डेटासेट
- प्रसव
- डिज़ाइन
- स्थलों
- विवरण
- विकास
- विभिन्न
- सीधे
- वितरित
- वितरित अभिकलन
- दस्तावेज़ीकरण
- डोमेन
- डोमेन
- किया
- आसानी
- भी
- सक्षम बनाता है
- समर्थकारी
- समाप्त
- अभियांत्रिकी
- वातावरण
- वातावरण
- त्रुटियाँ
- कार्यक्रम
- उदाहरण
- मौजूदा
- शीघ्र
- तलाश
- कुछ
- खेत
- लचीलापन
- निम्नलिखित
- फ़ुटबॉल सबसे लोकप्रिय एंव
- के लिए
- ढांचा
- मुक्त
- मित्रों
- से
- पूरी तरह से
- उत्पन्न
- उत्पन्न
- उत्पादक
- जनरेटिव एआई
- अधिक से अधिक
- he
- मदद
- उसके
- इतिहास
- मेजबान
- मेजबानी
- कैसे
- How To
- एचटीएमएल
- http
- HTTPS
- if
- in
- शामिल
- सहित
- करें-
- स्थापित
- स्थापना
- स्थापित कर रहा है
- एकीकृत
- एकीकृत
- बातचीत
- इंटरैक्टिव
- इंटरफेस
- में
- शामिल
- IT
- काम
- नौकरियां
- जेपीजी
- बड़ा
- सीख रहा हूँ
- छोड़ने
- जीवन चक्र
- पसंद
- लाइन
- स्थान
- लॉग इन
- मशीन
- यंत्र अधिगम
- जादू
- बनाना
- कामयाब
- प्रबंध
- प्रबंध
- मैन्युअल
- याद
- मिलान
- ML
- एमएलओपीएस
- आदर्श
- मॉनिटर
- अधिक
- नामांकित
- नेविगेट करें
- पथ प्रदर्शन
- आवश्यकता
- जरूरत
- की जरूरत है
- नया
- NLP
- नोड्स
- नोटबुक
- संख्या
- of
- ऑफर
- on
- लोगों
- अनुकूलित
- विकल्प
- ऑप्शंस
- or
- के ऊपर
- पृष्ठ
- फलक
- भाग
- निष्पादन
- अनुमतियाँ
- गंतव्य
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेल
- लोकप्रिय
- पद
- प्रिंसिपल
- प्रक्रिया
- प्रसंस्करण
- प्रस्तुत
- प्रोफाइल
- प्रोफाइल
- प्रगति
- परियोजना
- परियोजनाओं
- बशर्ते
- अजगर
- प्रश्नों
- जल्दी से
- रे
- दूरस्थ
- संसाधन
- रन
- दौड़ना
- चलाता है
- sagemaker
- स्केलेबल
- लिपियों
- एसडीके
- सेकंड
- अनुभाग
- देखना
- serverless
- सेवाएँ
- सत्र
- सेट
- सेटिंग्स
- कई
- Share
- साझा
- खोल
- दिखाना
- दिखाया
- दिखाता है
- सरल
- आकार
- सॉफ्टवेयर
- सॉफ्टवेयर इंजीनियरिंग
- समाधान
- समाधान ढूंढे
- स्पार्क
- विशेषज्ञ
- विशिष्ट
- गति
- खर्च
- धुआँरा
- प्रारंभ
- स्थिति
- कदम
- रुकें
- भंडारण
- की दुकान
- संग्रहित
- स्टूडियो
- समर्थन करता है
- प्रणाली
- लेना
- टीमों
- तकनीकी
- अंतिम
- कि
- RSI
- लेकिन हाल ही
- उन
- फिर
- जिसके चलते
- इन
- इसका
- यहाँ
- पहर
- सेवा मेरे
- उपकरण
- ट्रैक
- प्रशिक्षण
- यात्रा का
- प्रकार
- ui
- के अंतर्गत
- समझना
- यूआरएल
- प्रयोग
- उपयोग
- उपयोगकर्ता
- यूजर इंटरफेस
- उपयोगकर्ताओं
- का उपयोग
- उपयोगिता
- दृष्टि
- तरीके
- we
- वेब
- वेब ब्राउजर
- वेब सेवाओं
- वेब आधारित
- कुंआ
- कब
- कौन कौन से
- मर्जी
- साथ में
- बिना
- काम किया
- कार्य
- साल
- आप
- आपका
- जेफिरनेट