अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़न वेब सेवाएँ

अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़न वेब सेवाएँ

2021 में, हमने लॉन्च किया AWS सपोर्ट प्रोएक्टिव सर्विसेज के हिस्से के रूप में AWS एंटरप्राइज सपोर्ट योजना। इसकी शुरुआत के बाद से, हमने सैकड़ों ग्राहकों को उनके वर्कलोड को अनुकूलित करने, रेलिंग सेट करने और उनके मशीन लर्निंग (एमएल) वर्कलोड की लागत और उपयोग की दृश्यता में सुधार करने में मदद की है।

पोस्ट की इस श्रृंखला में, हम लागतों को अनुकूलित करने के बारे में सीखे गए पाठ साझा करते हैं अमेज़न SageMaker. इस पोस्ट में, हम डेटा प्रीप्रोसेसिंग का उपयोग करने पर ध्यान केंद्रित करते हैं अमेज़न SageMaker प्रसंस्करण और अमेज़न SageMaker डेटा रैंगलर नौकरियों.

डेटा-केंद्रित एआई दृष्टिकोण में डेटा प्रीप्रोसेसिंग एक महत्वपूर्ण भूमिका रखती है। हालाँकि, एमएल प्रशिक्षण और मूल्यांकन के लिए कच्चा डेटा तैयार करना अक्सर गणना संसाधनों, समय और मानव प्रयास के संदर्भ में एक कठिन और मांग वाला कार्य होता है। डेटा तैयारी को आम तौर पर विभिन्न स्रोतों से एकीकृत करने और लापता या शोर मूल्यों, आउटलेर्स इत्यादि से निपटने की आवश्यकता होती है।

इसके अलावा, सामान्य एक्सट्रैक्ट, ट्रांसफॉर्म और लोड (ईटीएल) कार्यों के अलावा, एमएल टीमों को कभी-कभी अधिक उन्नत क्षमताओं की आवश्यकता होती है जैसे डेटा का मूल्यांकन करने के लिए त्वरित मॉडल बनाना और एमएलओपीएस पाइपलाइन के हिस्से के रूप में फीचर महत्व स्कोर या प्रशिक्षण के बाद मॉडल मूल्यांकन का उत्पादन करना।

सेजमेकर उन मुद्दों में मदद के लिए विशेष रूप से डिज़ाइन की गई दो सुविधाएँ प्रदान करता है: सेजमेकर प्रोसेसिंग और डेटा रैंगलर। सेजमेकर प्रोसेसिंग आपको पूरी तरह से प्रबंधित बुनियादी ढांचे पर प्रीप्रोसेसिंग, पोस्टप्रोसेसिंग और मॉडल मूल्यांकन आसानी से चलाने में सक्षम बनाता है। डेटा रैंगलर एकल विज़ुअल इंटरफ़ेस और पूरी तरह से वितरित डेटा प्रोसेसिंग वातावरण का उपयोग करके डेटा स्रोत एकीकरण और फीचर इंजीनियरिंग की प्रक्रिया को सरल बनाकर डेटा को एकत्र करने और तैयार करने में लगने वाले समय को कम कर देता है।

सेजमेकर की दोनों विशेषताएं I/O, भंडारण और गणना के लिए कई विकल्पों के साथ शानदार लचीलापन प्रदान करती हैं। हालाँकि, उन विकल्पों को गलत तरीके से सेट करने से अनावश्यक लागत आ सकती है, खासकर बड़े डेटासेट के साथ काम करते समय।

इस पोस्ट में, हम मूल्य निर्धारण कारकों का विश्लेषण करते हैं और सेजमेकर प्रोसेसिंग और डेटा रैंगलर नौकरियों के लिए लागत अनुकूलन मार्गदर्शन प्रदान करते हैं।

SageMaker प्रसंस्करण

सेजमेकर प्रोसेसिंग डेटा प्रोसेसिंग और मॉडल मूल्यांकन कार्यभार को चलाने के लिए एक प्रबंधित समाधान है। आप इसका उपयोग डेटा प्रोसेसिंग चरणों जैसे फीचर इंजीनियरिंग, डेटा सत्यापन, मॉडल मूल्यांकन और एमएल वर्कफ़्लोज़ में मॉडल व्याख्या में कर सकते हैं। सेजमेकर प्रोसेसिंग के साथ, आप अपनी खुद की कस्टम प्रोसेसिंग स्क्रिप्ट ला सकते हैं और एक कस्टम कंटेनर बनाना चुन सकते हैं या स्किकिट-लर्न, लाइम, स्पार्क और अधिक जैसे सामान्य ढांचे के साथ सेजमेकर प्रबंधित कंटेनर का उपयोग कर सकते हैं।

सेजमेकर प्रोसेसिंग आपके द्वारा चुने गए इंस्टेंस प्रकार के लिए आपसे शुल्क लेता है, जो उपयोग की अवधि और उस इंस्टेंस से जुड़े प्रावधानित भंडारण पर आधारित होता है। भाग 1 में, हमने दिखाया कि उपयोग कैसे शुरू करें AWS लागत एक्सप्लोरर सेजमेकर में लागत अनुकूलन के अवसरों की पहचान करना।

आप उपयोग प्रकार पर फ़िल्टर लागू करके प्रसंस्करण लागत को फ़िल्टर कर सकते हैं। इन उपयोग प्रकारों के नाम इस प्रकार हैं:

  • REGION-Processing:instanceType (उदाहरण के लिए, USE1-Processing:ml.m5.large)
  • REGION-Processing:VolumeUsage.gp2 (उदाहरण के लिए, USE1-Processing:VolumeUsage.gp2)

कॉस्ट एक्सप्लोरर में अपनी सेजमेकर प्रोसेसिंग लागत की समीक्षा करने के लिए, सेजमेकर के साथ फ़िल्टर करके शुरुआत करें सर्विसके लिए, और उपयोग के प्रकार, आप दर्ज करके सभी प्रसंस्करण उदाहरणों के चलने के घंटे का चयन कर सकते हैं processing:ml मेनू पर उपसर्ग और सूची का चयन करना।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

प्रसंस्करण और पाइपलाइन विकास में लागत से बचें

सेजमेकर प्रोसेसिंग जॉब की अवधि को सही आकार देने और अनुकूलित करने से पहले, हम ऐतिहासिक जॉब रन के बारे में उच्च-स्तरीय मेट्रिक्स की जांच करते हैं। ऐसा करने के लिए आप दो तरीकों में से चुन सकते हैं।

सबसे पहले, आप तक पहुंच सकते हैं प्रसंस्करण सेजमेकर कंसोल पर पेज।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

वैकल्पिक रूप से, आप इसका उपयोग कर सकते हैं लिस्ट_प्रोसेसिंग_जॉब्स एपीआई.

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

एक प्रसंस्करण कार्य की स्थिति हो सकती है InProgress, Completed, Failed, Stoppingया, Stopped.

नई एमएलओपीएस पाइपलाइन विकसित करते समय बड़ी संख्या में विफल नौकरियां आम हैं। हालाँकि, आपको नौकरियों को सेजमेकर पर लॉन्च करने से पहले हमेशा उनका परीक्षण करना चाहिए और उन्हें मान्य करने का हर संभव प्रयास करना चाहिए क्योंकि उपयोग किए गए संसाधनों के लिए शुल्क लगता है। उस उद्देश्य के लिए, आप सेजमेकर प्रोसेसिंग का उपयोग कर सकते हैं स्थानीय प्रणाली. स्थानीय मोड एक सेजमेकर एसडीके सुविधा है जो आपको अनुमानक, प्रोसेसर और पाइपलाइन बनाने और उन्हें अपने स्थानीय विकास वातावरण में तैनात करने की अनुमति देती है। सेजमेकर प्रबंधित वातावरण में चलाने से पहले अपनी स्क्रिप्ट का परीक्षण करने का यह एक शानदार तरीका है। स्थानीय मोड सेजमेकर प्रबंधित कंटेनरों और जिन्हें आप स्वयं आपूर्ति करते हैं, द्वारा समर्थित है। स्थानीय मोड का उपयोग कैसे करें के बारे में अधिक जानने के लिए अमेज़न SageMaker पाइपलाइन, को देखें स्थानीय प्रणाली.

I/O-संबंधित लागत का अनुकूलन करें

सेजमेकर प्रोसेसिंग नौकरियां प्रबंधित के हिस्से के रूप में तीन डेटा स्रोतों तक पहुंच प्रदान करती हैं प्रोसेसिंग इनपुट: अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, तथा अमेज़न रेडशिफ्ट. अधिक जानकारी के लिए देखें प्रोसेसिंगS3इनपुट, एथेनाडेटासेटपरिभाषा, तथा RedshiftDatasetDefinition, क्रमशः।

अनुकूलन पर गौर करने से पहले, यह ध्यान रखना महत्वपूर्ण है कि हालांकि सेजमेकर प्रोसेसिंग नौकरियां इन डेटा स्रोतों का समर्थन करती हैं, लेकिन वे अनिवार्य नहीं हैं। अपने प्रोसेसिंग कोड में, आप किसी भी स्रोत से एक्सेसिंग डेटा डाउनलोड करने के लिए कोई भी तरीका लागू कर सकते हैं (बशर्ते कि प्रोसेसिंग इंस्टेंस उस तक पहुंच सके)।

प्रसंस्करण प्रदर्शन में बेहतर अंतर्दृष्टि प्राप्त करने और अनुकूलन अवसरों का पता लगाने के लिए, हम निम्नलिखित की अनुशंसा करते हैं सर्वोत्तम प्रथाओं को लॉग करना आपकी प्रोसेसिंग स्क्रिप्ट में। सेजमेकर आपके प्रोसेसिंग लॉग को प्रकाशित करता है अमेज़ॅन क्लाउडवॉच.

निम्नलिखित उदाहरण जॉब लॉग में, हम देखते हैं कि स्क्रिप्ट प्रोसेसिंग में 15 मिनट (बीच में) लगे Start custom script और End custom script).

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

हालाँकि, सेजमेकर कंसोल पर, हम देखते हैं कि कार्य में 4 अतिरिक्त मिनट लगे (कार्य के कुल रनटाइम का लगभग 25%)।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

यह इस तथ्य के कारण है कि हमारी प्रोसेसिंग स्क्रिप्ट में लगने वाले समय के अलावा, सेजमेकर-प्रबंधित डेटा को डाउनलोड करने और अपलोड करने में भी समय (4 मिनट) लगा। यदि यह लागत का एक बड़ा हिस्सा साबित होता है, तो डाउनलोडिंग समय को तेज करने के वैकल्पिक तरीकों पर विचार करें, जैसे फ़ाइलों को एक साथ डाउनलोड करने के लिए मल्टीप्रोसेसिंग के साथ Boto3 API का उपयोग करना, या Amazon S5 से तेज़ डाउनलोड के लिए WebDataset या s3cmd के रूप में तृतीय-पक्ष लाइब्रेरी का उपयोग करना। . अधिक जानकारी के लिए देखें S3cmd के साथ S5 वर्कलोड को समानांतर करना. ध्यान दें कि इस तरह के तरीकों से अमेज़न S3 में चार्ज लग सकते हैं डेटा स्थानांतरण.

प्रसंस्करण कार्य भी समर्थन करते हैं पाइप मोड. इस पद्धति के साथ, सेजमेकर एमएल स्टोरेज वॉल्यूम का उपयोग किए बिना स्रोत से इनपुट डेटा को सीधे आपके प्रोसेसिंग कंटेनर में नामित पाइपों में स्ट्रीम करता है, जिससे डेटा डाउनलोड समय और छोटी डिस्क वॉल्यूम समाप्त हो जाती है। हालाँकि, इसके लिए डिस्क पर फ़ाइलों को पढ़ने की तुलना में अधिक जटिल प्रोग्रामिंग मॉडल की आवश्यकता होती है।

जैसा कि पहले उल्लेख किया गया है, सेजमेकर प्रोसेसिंग डेटा स्रोतों के रूप में एथेना और अमेज़ॅन रेडशिफ्ट का भी समर्थन करता है। इन स्रोतों के साथ प्रोसेसिंग कार्य स्थापित करते समय, सेजमेकर स्वचालित रूप से डेटा को अमेज़ॅन एस 3 पर कॉपी करता है, और प्रोसेसिंग इंस्टेंस अमेज़ॅन एस 3 स्थान से डेटा लाता है। हालाँकि, जब काम समाप्त हो जाता है, तो कोई प्रबंधित सफाई प्रक्रिया नहीं होती है और कॉपी किया गया डेटा अभी भी अमेज़ॅन S3 में रहेगा और अवांछित भंडारण शुल्क लग सकता है। इसलिए, एथेना और अमेज़ॅन रेडशिफ्ट डेटा स्रोतों का उपयोग करते समय, एक सफाई प्रक्रिया लागू करना सुनिश्चित करें, जैसे कि लैम्ब्डा फ़ंक्शन जो एक शेड्यूल पर चलता है या एक में लैम्ब्डा चरण सेजमेकर पाइपलाइन के भाग के रूप में।

डाउनलोड करने की तरह, प्रसंस्करण कलाकृतियों को अपलोड करना भी अनुकूलन का एक अवसर हो सकता है। जब किसी प्रोसेसिंग जॉब के आउटपुट को इसका उपयोग करके कॉन्फ़िगर किया जाता है ProcessingS3Output पैरामीटर, आप कौन सा निर्दिष्ट कर सकते हैं S3UploadMode उपयोग करने के लिए। S3UploadMode पैरामीटर डिफ़ॉल्ट मान है EndOfJob, जो कार्य पूरा होने के बाद सेजमेकर को परिणाम अपलोड करने के लिए मिलेगा। हालाँकि, यदि आपका प्रसंस्करण कार्य एकाधिक फ़ाइलें उत्पन्न करता है, तो आप सेट कर सकते हैं S3UploadMode सेवा मेरे Continuous, जिससे प्रसंस्करण जारी रहने के साथ-साथ कलाकृतियों को अपलोड करने में सक्षम बनाया जा सके, और कार्य रनटाइम को कम किया जा सके।

सही आकार के प्रसंस्करण कार्य उदाहरण

सेजमेकर प्रोसेसिंग नौकरियों की लागत को अनुकूलित करने में सही इंस्टेंस प्रकार और आकार का चयन एक प्रमुख कारक है। आप एक ही इंस्टेंस परिवार के भीतर एक अलग संस्करण में माइग्रेट करके या किसी अन्य इंस्टेंस परिवार में माइग्रेट करके एक इंस्टेंस को सही आकार दे सकते हैं। एक ही इंस्टेंस परिवार में माइग्रेट करते समय, आपको केवल सीपीयू/जीपीयू और मेमोरी पर विचार करना होगा। सही प्रसंस्करण संसाधनों को चुनने पर अधिक जानकारी और सामान्य मार्गदर्शन के लिए, देखें Amazon SageMaker पर संसाधनों की कुशल गणना सुनिश्चित करें.

उदाहरण चयन को बेहतर बनाने के लिए, हम क्लाउडवॉच में प्रोसेसिंग जॉब मेट्रिक्स का विश्लेषण करके शुरुआत करते हैं। अधिक जानकारी के लिए देखें Amazon CloudWatch के साथ Amazon SageMaker की निगरानी करें.

क्लाउडवॉच सेजमेकर से कच्चा डेटा एकत्र करता है और इसे पढ़ने योग्य, वास्तविक समय के मैट्रिक्स में संसाधित करता है। हालाँकि ये आँकड़े 15 महीनों के लिए रखे जाते हैं, क्लाउडवॉच कंसोल खोज को उन मेट्रिक्स तक सीमित करता है जो पिछले 2 सप्ताह में अपडेट किए गए थे (यह सुनिश्चित करता है कि केवल वर्तमान नौकरियां ही दिखाई जाएं)। प्रोसेसिंग जॉब मेट्रिक्स /aws/sagemaker/ProcessingJobs नेमस्पेस में पाए जा सकते हैं और एकत्र किए गए मेट्रिक्स हैं CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization, तथा DiskUtilization.

निम्नलिखित स्क्रीनशॉट क्लाउडवॉच में प्रसंस्करण कार्य का एक उदाहरण दिखाता है जो हमने पहले देखा था।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

इस उदाहरण में, हम औसत सीपीयू और मेमोरी मान देखते हैं (जो क्लाउडवॉच में डिफ़ॉल्ट है): औसत सीपीयू उपयोग 0.04%, मेमोरी 1.84% और डिस्क उपयोग 13.7% है। सही आकार के लिए, हमेशा अधिकतम सीपीयू और मेमोरी उपयोग पर विचार करें (इस उदाहरण में, पहले 98 मिनट में अधिकतम सीपीयू उपयोग 3% था)। एक सामान्य नियम के रूप में, यदि आपका अधिकतम सीपीयू और मेमोरी उपयोग लगातार 40% से कम है, तो आप मशीन को सुरक्षित रूप से आधा कर सकते हैं। उदाहरण के लिए, यदि आप ml.c5.4xlarge इंस्टेंस का उपयोग कर रहे थे, तो आप ml.c5.2xlarge पर जा सकते हैं, जिससे आपकी लागत 50% तक कम हो सकती है।

डेटा रैंगलर नौकरियां

डेटा रैंगलर की एक विशेषता है अमेज़ॅन सैजमेकर स्टूडियो जो डेटा अन्वेषण और प्रसंस्करण के लिए एक दोहराने योग्य और स्केलेबल समाधान प्रदान करता है। आप अपने डेटा को इंटरैक्टिव रूप से आयात करने, विश्लेषण करने, बदलने और प्रदर्शित करने के लिए डेटा रैंगलर इंटरफ़ेस का उपयोग करते हैं। उन चरणों को एक रेसिपी (एक .फ्लो फ़ाइल) में कैप्चर किया जाता है जिसे आप डेटा रैंगलर जॉब में उपयोग कर सकते हैं। यह आपके डेटा पर समान डेटा परिवर्तनों को फिर से लागू करने और वितरित बैच डेटा प्रोसेसिंग कार्य को स्केल करने में मदद करता है, या तो एमएल पाइपलाइन के हिस्से के रूप में या स्वतंत्र रूप से।

स्टूडियो में अपने डेटा रैंगलर ऐप को अनुकूलित करने के मार्गदर्शन के लिए, इस श्रृंखला में भाग 2 देखें।

इस अनुभाग में, हम डेटा रैंगलर नौकरियों को अनुकूलित करने पर ध्यान केंद्रित करते हैं।

डेटा रैंगलर उपयोग करता है सेजमेकर स्पार्क प्रसंस्करण नौकरियां डेटा रैंगलर-प्रबंधित कंटेनर के साथ। यह कंटेनर जॉब में .flow फ़ाइल से दिशा-निर्देश चलाता है। किसी भी प्रसंस्करण कार्य की तरह, डेटा रैंगलर आपके द्वारा चुने गए इंस्टेंस के लिए आपसे उपयोग की अवधि और उस इंस्टेंस से जुड़े प्रावधानित भंडारण के आधार पर शुल्क लेता है।

कॉस्ट एक्सप्लोरर में, आप उपयोग प्रकार पर फ़िल्टर लागू करके डेटा रैंगलर नौकरियों की लागत को फ़िल्टर कर सकते हैं। इन उपयोग प्रकारों के नाम हैं:

  • REGION-processing_DW:instanceType (उदाहरण के लिए, USE1-processing_DW:ml.m5.large)
  • REGION-processing_DW:VolumeUsage.gp2 (उदाहरण के लिए, USE1-processing_DW:VolumeUsage.gp2)

कॉस्ट एक्सप्लोरर में अपनी डेटा रैंगलर लागत देखने के लिए, सेजमेकर का उपयोग करने के लिए सेवा को फ़िल्टर करें उपयोग के प्रकार, चुनना processing_DW उपसर्ग करें और मेनू पर सूची का चयन करें। यह आपको इंस्टेंस उपयोग (घंटे) और स्टोरेज वॉल्यूम (जीबी) दोनों संबंधित लागत दिखाएगा। (यदि आप स्टूडियो डेटा रैंगलर लागत देखना चाहते हैं तो आप उपयोग प्रकार को फ़िल्टर कर सकते हैं Studio_DW उपसर्ग.)

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

डेटा रैंगलर जॉब इंस्टेंस का सही आकार और शेड्यूल करें

फिलहाल, डेटा रैंगलर निम्नलिखित इंस्टेंस आकारों के साथ केवल m5 इंस्टेंस का समर्थन करता है: ml.m5.4xlarge, ml.m5.12xlarge, और ml.m5.24xlarge। आप अपनी नौकरी की लागत को ठीक करने के लिए वितरित नौकरी सुविधा का उपयोग कर सकते हैं। उदाहरण के लिए, मान लीजिए कि आपको एक डेटासेट संसाधित करने की आवश्यकता है जिसके लिए 350 GiB RAM की आवश्यकता है। 4xlarge (128 GiB) और 12xlarge (256 GiB) प्रोसेस करने में सक्षम नहीं हो सकते हैं और आपको m5.24xlarge इंस्टेंस (768 GiB) का उपयोग करने के लिए प्रेरित करेंगे। हालाँकि, आप दो m5.12xबड़े इंस्टेंसेस (2 * 256 GiB = 512 GiB) का उपयोग कर सकते हैं और लागत को 40% या तीन m5.4xबड़े इंस्टेंसेस (3 * 128 GiB = 384 GiB) तक कम कर सकते हैं और m50xlarge का 5.24% बचा सकते हैं। उदाहरण लागत. आपको ध्यान देना चाहिए कि ये अनुमान हैं और वितरित प्रसंस्करण में कुछ ओवरहेड शामिल हो सकते हैं जो समग्र रनटाइम को प्रभावित करेंगे।

इंस्टेंस प्रकार बदलते समय, सुनिश्चित करें कि आपने इसे अपडेट कर दिया है स्पार्क कॉन्फ़िगरेशन इसलिए। उदाहरण के लिए, यदि आपके पास प्रारंभिक ml.m5.4xlarge इंस्टेंस जॉब गुणों के साथ कॉन्फ़िगर किया गया है spark.driver.memory 2048 पर सेट करें और spark.executor.memory 55742 पर सेट करें, और बाद में ml.m5.12xlarge तक स्केल करें, उन कॉन्फ़िगरेशन मानों को बढ़ाने की आवश्यकता है, अन्यथा वे प्रसंस्करण कार्य में बाधा बन जाएंगे। आप इन वेरिएबल्स को डेटा रैंगलर जीयूआई में या कॉन्फ़िगरेशन पथ से जुड़ी कॉन्फ़िगरेशन फ़ाइल में अपडेट कर सकते हैं (निम्न उदाहरण देखें)।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

डेटा रैंगलर में एक और आकर्षक विशेषता इसकी क्षमता है एक निर्धारित कार्य निर्धारित करें. यदि आप समय-समय पर डेटा संसाधित कर रहे हैं, तो आप प्रसंस्करण कार्य को स्वचालित रूप से चलाने के लिए एक शेड्यूल बना सकते हैं। उदाहरण के लिए, आप एक शेड्यूल बना सकते हैं जो नया डेटा मिलने पर प्रोसेसिंग कार्य स्वचालित रूप से चलाता है (उदाहरण के लिए, देखें)। अमेज़न S3 को निर्यात करें or अमेज़ॅन सेजमेकर फ़ीचर स्टोर पर निर्यात करें). हालाँकि, आपको ध्यान देना चाहिए कि जब आप कोई शेड्यूल बनाते हैं, तो डेटा रैंगलर एक शेड्यूल बनाता है eventRule इवेंटब्रिज में। इसका मतलब यह है कि आपसे आपके द्वारा बनाए गए ईवेंट नियमों (साथ ही प्रसंस्करण कार्य को चलाने के लिए उपयोग किए गए इंस्टेंसेस) के लिए भी शुल्क लिया जाएगा। अधिक जानकारी के लिए देखें अमेज़ॅन इवेंटब्रिज मूल्य निर्धारण.

निष्कर्ष

इस पोस्ट में, हमने प्रीप्रोसेसिंग के दौरान लागत विश्लेषण और सर्वोत्तम प्रथाओं पर मार्गदर्शन प्रदान किया

सेजमेकर प्रोसेसिंग और डेटा रैंगलर नौकरियों का उपयोग करके डेटा। प्रीप्रोसेसिंग के समान, एमएल मॉडल के निर्माण, प्रशिक्षण और चलाने में कई विकल्प और कॉन्फ़िगरेशन सेटिंग्स हैं जिससे अनावश्यक लागत हो सकती है। इसलिए, चूंकि मशीन लर्निंग खुद को उद्योगों में एक शक्तिशाली उपकरण के रूप में स्थापित करती है, एमएल वर्कलोड को लागत प्रभावी बनाए रखने की आवश्यकता है।

सेजमेकर एमएल पाइपलाइन में प्रत्येक चरण को सुविधाजनक बनाने के लिए एक विस्तृत और गहन सुविधा सेट प्रदान करता है।

यह मजबूती प्रदर्शन या चपलता से समझौता किए बिना निरंतर लागत अनुकूलन के अवसर भी प्रदान करती है।


लेखक के बारे में

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.दीपाली राजले AWS में एक वरिष्ठ AI/ML विशेषज्ञ हैं। वह एडब्ल्यूएस पारिस्थितिकी तंत्र में एआई/एमएल समाधानों को तैनात करने और बनाए रखने के लिए सर्वोत्तम प्रथाओं के साथ तकनीकी मार्गदर्शन प्रदान करने वाले उद्यम ग्राहकों के साथ काम करती है। उन्होंने एनएलपी और कंप्यूटर विज़न से जुड़े विभिन्न गहन शिक्षण उपयोग मामलों पर कई संगठनों के साथ काम किया है। वह अपने उपयोग के अनुभव को बढ़ाने के लिए जेनरेटर एआई का लाभ उठाने के लिए संगठनों को सशक्त बनाने को लेकर उत्साहित हैं। अपने खाली समय में, वह फिल्में, संगीत और साहित्य का आनंद लेती हैं।

अमेज़ॅन सेजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन के अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.उरी रोसेनबर्ग यूरोप, मध्य पूर्व और अफ्रीका के लिए एआई और एमएल विशेषज्ञ तकनीकी प्रबंधक हैं। इज़राइल में स्थित, उरी उद्यम ग्राहकों को एमएल की सभी चीजों को डिजाइन, निर्माण और बड़े पैमाने पर संचालित करने के लिए सशक्त बनाने के लिए काम करता है। अपने खाली समय में, वह साइकिल चलाना, लंबी पैदल यात्रा करना और सूर्यास्त देखना पसंद करते हैं (दिन में कम से कम एक बार)।

समय टिकट:

से अधिक AWS मशीन लर्निंग