सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

SageMaker फ़ीचर स्टोर और Apache Iceberg ऑफ़लाइन स्टोर संघनन का उपयोग करके गति ML विकास

आज, कंपनियां व्यावसायिक इकाइयों और डेटा विज्ञान टीमों में एमएल विकास को मापने के लिए एक केंद्रीय भंडार प्रदान करने के लिए फीचर स्टोर स्थापित कर रही हैं। जैसा कि फीचर डेटा आकार और जटिलता में बढ़ता है, डेटा वैज्ञानिकों को प्रयोग, मॉडल प्रशिक्षण और बैच स्कोरिंग के लिए डेटासेट निकालने के लिए इन फीचर स्टोर्स को कुशलता से क्वेरी करने में सक्षम होना चाहिए।

अमेज़न SageMaker फ़ीचर स्टोर एक उद्देश्य-निर्मित सुविधा प्रबंधन समाधान है जो डेटा वैज्ञानिकों और एमएल इंजीनियरों को प्रशिक्षण और भविष्यवाणी वर्कफ़्लोज़ में उपयोग किए जाने वाले क्यूरेटेड डेटा को सुरक्षित रूप से संग्रहीत करने, खोजने और साझा करने में मदद करता है। सेजमेकर फीचर स्टोर अब सपोर्ट करता है अपाचे आइसबर्ग भंडारण सुविधाओं के लिए एक तालिका प्रारूप के रूप में। यह हिमशैल तालिका संघनन का लाभ उठाते हुए एमएल प्रशिक्षण डेटासेट को निकालते समय तेज क्वेरी प्रदर्शन को सक्षम करके मॉडल विकास को गति देता है। आपके फीचर समूहों और उनके पैमाने के डिजाइन के आधार पर, आप इस नई क्षमता का उपयोग करके 10x से 100x के प्रशिक्षण क्वेरी प्रदर्शन में सुधार का अनुभव कर सकते हैं।

इस पोस्ट के अंत तक, आप जानेंगे कि आइसबर्ग प्रारूप का उपयोग करके फीचर समूह कैसे बनाएं, आइसबर्ग की तालिका प्रबंधन प्रक्रियाओं का उपयोग कैसे करें अमेज़न एथेना, और इन कार्यों को स्वायत्त रूप से चलाने के लिए शेड्यूल करें। यदि आप एक स्पार्क उपयोगकर्ता हैं, तो आप यह भी सीखेंगे कि स्पार्क का उपयोग करके समान प्रक्रियाओं को कैसे निष्पादित किया जाए और उन्हें अपने स्वयं के स्पार्क वातावरण और स्वचालन में शामिल किया जाए।

सेजमेकर फीचर स्टोर और अपाचे आइसबर्ग

अमेज़न SageMaker फ़ीचर स्टोर सुविधाओं और संबंधित मेटाडेटा के लिए एक केंद्रीकृत स्टोर है, जिससे विभिन्न परियोजनाओं या एमएल मॉडल पर काम करने वाली डेटा वैज्ञानिक टीमों द्वारा सुविधाओं को आसानी से खोजा और पुन: उपयोग किया जा सकता है।

SageMaker फ़ीचर स्टोर में सुविधाओं के प्रबंधन के लिए एक ऑनलाइन और एक ऑफ़लाइन मोड शामिल है। ऑनलाइन स्टोर का उपयोग कम-विलंबता वास्तविक समय के अनुमान उपयोग के मामलों के लिए किया जाता है। ऑफ़लाइन स्टोर मुख्य रूप से बैच पूर्वानुमान और मॉडल प्रशिक्षण के लिए उपयोग किया जाता है। ऑफ़लाइन स्टोर केवल परिशिष्ट स्टोर है और इसका उपयोग ऐतिहासिक फीचर डेटा को स्टोर करने और एक्सेस करने के लिए किया जा सकता है। ऑफ़लाइन स्टोर के साथ, उपयोगकर्ता अन्वेषण और बैच स्कोरिंग के लिए सुविधाओं को स्टोर और सर्व कर सकते हैं और मॉडल प्रशिक्षण के लिए पॉइंट-इन-टाइम सही डेटासेट निकाल सकते हैं।

ऑफ़लाइन स्टोर डेटा आपके AWS खाते में Amazon सिंपल स्टोरेज सर्विस (Amazon S3) बकेट में संग्रहीत है। SageMaker फ़ीचर स्टोर स्वचालित रूप से फीचर समूह निर्माण के दौरान एक AWS ग्लू डेटा कैटलॉग बनाता है। ग्राहक स्पार्क रनटाइम का उपयोग करके ऑफलाइन स्टोर डेटा तक भी पहुंच सकते हैं और एमएल फीचर विश्लेषण और फीचर इंजीनियरिंग उपयोग के मामलों के लिए बिग डेटा प्रोसेसिंग कर सकते हैं।

तालिका प्रारूप सार डेटा फ़ाइलों को तालिका के रूप में एक तरीका प्रदान करते हैं। इन वर्षों में, एसीआईडी ​​​​लेनदेन, शासन और कैटलॉग उपयोग के मामलों का समर्थन करने के लिए कई टेबल प्रारूप सामने आए हैं। अपाचे आइसबर्ग बहुत बड़े विश्लेषणात्मक डेटासेट के लिए एक ओपन टेबल प्रारूप है। यह फाइलों के बड़े संग्रह को तालिकाओं के रूप में प्रबंधित करता है, और यह आधुनिक विश्लेषणात्मक डेटा लेक संचालन जैसे रिकॉर्ड-स्तरीय सम्मिलित करना, अद्यतन करना, हटाना और समय यात्रा प्रश्नों का समर्थन करता है। आइसबर्ग व्यक्तिगत डेटा फ़ाइलों को निर्देशिकाओं के बजाय तालिका में ट्रैक करता है। यह लेखकों को डेटा फ़ाइलों को जगह में बनाने की अनुमति देता है (फ़ाइलें स्थानांतरित या परिवर्तित नहीं होती हैं) और केवल एक स्पष्ट प्रतिबद्धता में तालिका में फ़ाइलें जोड़ती हैं। तालिका स्थिति मेटाडेटा फ़ाइलों में बनाए रखी जाती है। तालिका स्थिति में सभी परिवर्तन एक नया मेटाडेटा फ़ाइल संस्करण बनाते हैं जो पुराने मेटाडेटा को परमाणु रूप से बदल देता है। तालिका मेटाडेटा फ़ाइल तालिका स्कीमा, विभाजन कॉन्फ़िगरेशन और अन्य गुणों को ट्रैक करती है।

Iceberg का AWS सेवाओं के साथ एकीकरण है। उदाहरण के लिए, आप का उपयोग कर सकते हैं एडब्ल्यूएस गोंद आइसबर्ग तालिकाओं के लिए मेटास्टोर के रूप में डेटा कैटलॉग, और एथेना Apache Iceberg तालिकाओं के लिए पढ़ने, समय यात्रा, लिखने और DDL प्रश्नों का समर्थन करता है जो डेटा के लिए Apache Parquet प्रारूप और उनके मेटास्टोर के लिए AWS Glue कैटलॉग का उपयोग करते हैं।

सेजमेकर फीचर स्टोर के साथ, अब आप डिफ़ॉल्ट मानक गोंद प्रारूप के विकल्प के रूप में आइसबर्ग टेबल प्रारूप के साथ फीचर समूह बना सकते हैं। इसके साथ, ग्राहक अपने उपयोग के मामले और अनुकूलन आवश्यकताओं को पूरा करने के लिए आइसबर्ग की फ़ाइल संघनन और डेटा प्रूनिंग सुविधाओं का उपयोग करने के लिए नए तालिका प्रारूप का लाभ उठा सकते हैं। आइसबर्ग ग्राहकों को विलोपन, समय-यात्रा प्रश्न, उच्च-संगामिति लेनदेन और उच्च-प्रदर्शन प्रश्न भी करने देता है।

आइसबर्ग को एक टेबल फॉर्मेट और टेबल मेंटेनेंस ऑपरेशंस जैसे कॉम्पैक्शन के रूप में जोड़कर, ग्राहकों को ऑफ़लाइन सुविधा समूहों के साथ बड़े पैमाने पर काम करते समय तेजी से क्वेरी प्रदर्शन मिलता है, जिससे वे अधिक तेज़ी से एमएल प्रशिक्षण डेटासेट बना सकते हैं।

निम्न आरेख तालिका प्रारूप के रूप में आइसबर्ग का उपयोग करके ऑफ़लाइन स्टोर की संरचना को दर्शाता है।

अगले अनुभागों में, आप सीखेंगे कि आइसबर्ग प्रारूप का उपयोग करके फीचर समूह कैसे बनाएं, एडब्ल्यूएस एथेना का उपयोग करके आइसबर्ग की तालिका प्रबंधन प्रक्रियाओं को निष्पादित करें और इन कार्यों को ऑन-डिमांड या शेड्यूल पर चलाने के लिए एडब्ल्यूएस सेवाओं का उपयोग करें। यदि आप एक स्पार्क उपयोगकर्ता हैं, तो आप यह भी सीखेंगे कि स्पार्क का उपयोग करके उसी प्रक्रिया को कैसे निष्पादित किया जाए।

चरण-दर-चरण निर्देशों के लिए, हम एक भी प्रदान करते हैं नमूना नोटबुक, जो GitHub में पाया जा सकता है। इस पोस्ट में, हम सबसे महत्वपूर्ण भागों पर प्रकाश डालेंगे।

आइसबर्ग टेबल फॉर्मेट का उपयोग करके फीचर समूह बनाना

नए फीचर समूह बनाते समय आपको सबसे पहले आइसबर्ग को टेबल फॉर्मेट के रूप में चुनना होगा। एक नया वैकल्पिक पैरामीटर TableFormat Amazon SageMaker Studio का उपयोग करके या API या SDK का उपयोग करके कोड के माध्यम से या तो अंतःक्रियात्मक रूप से सेट किया जा सकता है। यह पैरामीटर मानों को स्वीकार करता है ICEBERG or GLUE (वर्तमान एडब्ल्यूएस गोंद प्रारूप के लिए)। निम्न कोड स्निपेट आपको दिखाता है कि आइसबर्ग प्रारूप का उपयोग करके एक फीचर समूह कैसे बनाया जाए और FeatureGroup.create सेजमेकर एसडीके का एपीआई।

orders_feature_group_iceberg.create(
s3_uri=f"s3://{s3_bucket_name}/{prefix}",
record_identifier_name=record_identifier_feature_name,
event_time_feature_name=event_time_feature_name,
role_arn=role,
enable_online_store=True,
table_format=TableFormatEnum.ICEBERG
)

तालिका AWS Glue Data Catalog में स्वचालित रूप से बनाई और पंजीकृत की जाएगी।

अब जब कि orders_feature_group_iceberg बनाया जाता है, तो आप अपनी पसंद की अंतर्ग्रहण पाइपलाइन का उपयोग करके सुविधाओं को ग्रहण कर सकते हैं। इस उदाहरण में, हम का उपयोग करके रिकॉर्ड को अंतर्ग्रहण करते हैं फ़ीचरग्रुप.इनजेस्ट () एपीआई, जो पंडों के डेटाफ़्रेम से रिकॉर्ड प्राप्त करता है। आप भी इस्तेमाल कर सकते हैं फ़ीचरग्रुप ()। put_record अलग-अलग रिकॉर्ड को निगलने या स्ट्रीमिंग स्रोतों को संभालने के लिए एपीआई। स्पार्क उपयोगकर्ता हमारे उपयोग से स्पार्क डेटाफ्रेम को भी ग्रहण कर सकते हैं स्पार्क कनेक्टर.

orders_fg = FeatureGroup(name=orders_feature_group_iceberg_name,
sagemaker_session=feature_store_session)
orders_fg.ingest(data_frame=order_data, wait=True)

आप ऑफ़लाइन सुविधा स्टोर के विरुद्ध एक क्वेरी चलाकर यह सत्यापित कर सकते हैं कि रिकॉर्ड्स को सफलतापूर्वक अंतर्ग्रहण कर लिया गया है। आप S3 स्थान पर भी नेविगेट कर सकते हैं और नई फ़ोल्डर संरचना देख सकते हैं।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

आइसबर्ग तालिका प्रबंधन प्रक्रियाओं को क्रियान्वित करना

अमेज़न एथेना एक सर्वर रहित SQL क्वेरी इंजन है जो मूल रूप से Iceberg प्रबंधन प्रक्रियाओं का समर्थन करता है। इस खंड में, आप अपने द्वारा बनाए गए ऑफ़लाइन फीचर समूह को मैन्युअल रूप से कॉम्पैक्ट करने के लिए एथेना का उपयोग करेंगे। ध्यान दें कि आपको एथेना इंजन संस्करण 3 का उपयोग करने की आवश्यकता होगी। इसके लिए, आप एक नया कार्यसमूह बना सकते हैं, या मौजूदा कार्यसमूह को कॉन्फ़िगर कर सकते हैं, और अनुशंसित एथेना इंजन संस्करण 3 का चयन कर सकते हैं। अपने एथेना इंजन संस्करण को बदलने के लिए अधिक जानकारी और निर्देशों के लिए देखें एथेना इंजन संस्करण बदलना.

जैसे-जैसे डेटा हिमशैल तालिका में जमा होता है, अतिरिक्त फ़ाइलों को खोलने के लिए आवश्यक प्रसंस्करण समय में वृद्धि के कारण प्रश्न धीरे-धीरे कम कुशल हो सकते हैं। संघनन तालिका की सामग्री को बदले बिना तालिका के संरचनात्मक लेआउट का अनुकूलन करता है।

संघनन करने के लिए, आप का उपयोग करें OPTIMIZE table REWRITE DATA एथेना में संघनन तालिका रखरखाव कमान। निम्न सिंटैक्स दिखाता है कि हिमशैल तालिका प्रारूप का उपयोग करके संग्रहीत फीचर समूह के डेटा लेआउट को कैसे अनुकूलित किया जाए। sagemaker_featurestore SageMaker फ़ीचर स्टोर डेटाबेस के नाम का प्रतिनिधित्व करता है, और orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 हमारा फीचर ग्रुप टेबल नाम है।

OPTIMIZE sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 REWRITE DATA USING BIN_PACK

ऑप्टिमाइज़ कमांड चलाने के बाद, आप इसका उपयोग करते हैं VACUUM प्रक्रिया, जो स्नैपशॉट समाप्ति करती है और अनाथ फ़ाइलों को हटाती है। ये क्रियाएं मेटाडेटा आकार को कम करती हैं और उन फ़ाइलों को हटाती हैं जो वर्तमान तालिका स्थिति में नहीं हैं और तालिका के लिए निर्दिष्ट अवधारण अवधि से भी पुरानी हैं।

VACUUM sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334

ध्यान दें कि तालिका गुण एथेना के उपयोग से कॉन्फ़िगर करने योग्य हैं ALTER TABLE. इसे कैसे करें के उदाहरण के लिए देखें एथेना प्रलेखन. वैक्यूम के लिए, vacuum_min_snapshots_to_keep और vacuum_max_snapshot_age_seconds स्नैपशॉट छंटाई मापदंडों को कॉन्फ़िगर करने के लिए इस्तेमाल किया जा सकता है।

आइए एक नमूना सुविधा समूह तालिका पर संघनन चलाने के प्रदर्शन प्रभाव पर एक नज़र डालते हैं। परीक्षण उद्देश्यों के लिए, हमने एक ही ऑर्डर फीचर रिकॉर्ड को दो फीचर समूहों में शामिल किया, orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003 और orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334, स्किकिट-लर्न के साथ एक समानांतर सैजमेकर प्रोसेसिंग जॉब का उपयोग करते हुए, जिसके परिणामस्वरूप Amazon S49,908,135 में 3 ऑब्जेक्ट संग्रहीत हैं और कुल आकार 106.5 GiB है।

हम सुविधा समूह पर डुप्लिकेट के बिना और हटाए गए रिकॉर्ड के बिना नवीनतम स्नैपशॉट का चयन करने के लिए एक क्वेरी चलाते हैं orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003. संघनन से पहले, पूछताछ में 1 घंटा 27 मिनट का समय लगा।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

हम फिर संघनन चलाते हैं orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 एथेना ऑप्टिमाइज़ क्वेरी का उपयोग करते हुए, जिसने सुविधा समूह तालिका को Amazon S109,851 में 3 ऑब्जेक्ट और 2.5 GiB के कुल आकार में संकुचित कर दिया। यदि हम संघनन के बाद उसी क्वेरी को चलाते हैं, तो इसका रनटाइम घटकर 1min 13sec हो जाता है।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

आइसबर्ग फ़ाइल संघनन के साथ, क्वेरी निष्पादन समय में उल्लेखनीय सुधार हुआ है। उसी क्वेरी के लिए, रन टाइम 1h 27mins से घटकर 1min 13sec हो गया, जो कि 71 गुना तेज है।

AWS सेवाओं के साथ शेड्यूलिंग आइसबर्ग संघनन

इस खंड में, आप सीखेंगे कि अपने ऑफ़लाइन फीचर स्टोर को कॉम्पैक्ट करने के लिए तालिका प्रबंधन प्रक्रियाओं को स्वचालित कैसे करें। निम्नलिखित आरेख हिमशैल तालिका प्रारूप में फीचर समूह बनाने के लिए आर्किटेक्चर और पूरी तरह से स्वचालित तालिका प्रबंधन समाधान दिखाता है, जिसमें फ़ाइल संघनन और सफाई संचालन शामिल हैं।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

एक उच्च स्तर पर, आप आइसबर्ग तालिका प्रारूप का उपयोग करके एक फीचर समूह बनाते हैं और ऑनलाइन फीचर स्टोर में अभिलेखों को अंतर्ग्रहण करते हैं। फ़ीचर मान स्वचालित रूप से ऑनलाइन स्टोर से ऐतिहासिक ऑफ़लाइन स्टोर में दोहराए जाते हैं। आइसबर्ग प्रबंधन प्रक्रियाओं को चलाने के लिए एथेना का उपयोग किया जाता है। प्रक्रियाओं को शेड्यूल करने के लिए, आप एक सेट अप करते हैं एडब्ल्यूएस गोंद पायथन शेल स्क्रिप्ट का उपयोग करके जॉब करें और AWS ग्लू जॉब शेड्यूल बनाएं।

एडब्ल्यूएस गोंद नौकरी सेटअप

आप एक समय पर आइसबर्ग टेबल रखरखाव कार्यों को निष्पादित करने के लिए एडब्ल्यूएस ग्लू जॉब का उपयोग करते हैं। सबसे पहले, आपको AWS Glue के लिए Amazon Athena, Amazon S3, और CloudWatch तक पहुँचने की अनुमति के लिए IAM भूमिका बनाने की आवश्यकता है।

अगला, आपको आइसबर्ग प्रक्रियाओं को चलाने के लिए एक पायथन स्क्रिप्ट बनाने की आवश्यकता है। आप खोज सकते हैं नमूना स्क्रिप्ट गिटहब में। स्क्रिप्ट boto3 का उपयोग करके OPTIMIZE क्वेरी निष्पादित करेगी।

optimize_sql = f"optimize {database}.{table} rewrite data using bin_pack"

AWS गोंद का उपयोग करके स्क्रिप्ट को पैरामीट्रिज किया गया है getResolvedOptions(args, options) यूटिलिटी फ़ंक्शन जो आपको उन तर्कों तक पहुंच प्रदान करता है जो आपके द्वारा कार्य चलाने पर आपकी स्क्रिप्ट को दिए जाते हैं। इस उदाहरण में, AWS क्षेत्र, आइसबर्ग डेटाबेस और आपके फीचर समूह के लिए तालिका, एथेना कार्यसमूह, और एथेना आउटपुट स्थान परिणाम फ़ोल्डर को कार्य के मापदंडों के रूप में पारित किया जा सकता है, जिससे यह स्क्रिप्ट आपके वातावरण में पुन: प्रयोज्य हो जाती है।

अंत में, आप AWS Glue में स्क्रिप्ट को शेल के रूप में चलाने के लिए वास्तविक AWS Glue जॉब बनाते हैं।

  • AWS गोंद कंसोल पर नेविगेट करें।
  • चुनना नौकरियां एडब्ल्यूएस गोंद स्टूडियो के तहत टैब।
  • चुनते हैं पायथन शेल स्क्रिप्ट संपादक.
  • चुनें मौजूदा स्क्रिप्ट अपलोड और संपादित करें। क्लिक करें बनाएं.
  • RSI नौकरी विवरण बटन आपको एडब्ल्यूएस गोंद कार्य को कॉन्फ़िगर करने देता है। आपको पहले बनाई गई IAM भूमिका का चयन करना होगा। चुनना अजगर 3.9 या नवीनतम उपलब्ध पायथन संस्करण।
  • उसी टैब में, आप कई अन्य कॉन्फ़िगरेशन विकल्पों को भी परिभाषित कर सकते हैं, जैसे पुनर्प्रयास की संख्या or जॉब टाइमआउट. में उन्नत गुण, आप स्क्रिप्ट को निष्पादित करने के लिए कार्य पैरामीटर जोड़ सकते हैं, जैसा कि नीचे उदाहरण स्क्रीनशॉट में दिखाया गया है।
  • क्लिक करें सहेजें.

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

में अनुसूचियों टैब, आप फीचर स्टोर रखरखाव प्रक्रियाओं को चलाने के लिए शेड्यूल को परिभाषित कर सकते हैं। उदाहरण के लिए, निम्न स्क्रीनशॉट आपको दिखाता है कि प्रत्येक 6 घंटे के शेड्यूल पर कार्य को कैसे चलाना है।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

आप रनटाइम मेट्रिक्स जैसे पूर्णता स्थिति, अवधि और प्रारंभ समय को समझने के लिए जॉब रन की निगरानी कर सकते हैं। आप एडब्ल्यूएस ग्लू जॉब के लिए क्लाउडवॉच लॉग भी देख सकते हैं ताकि यह जांचा जा सके कि प्रक्रियाएं सफलतापूर्वक चलती हैं।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.

स्पार्क के साथ आइसबर्ग टेबल प्रबंधन कार्यों को निष्पादित करना

ग्राहक संघनन कार्यों और रखरखाव के तरीकों को प्रबंधित करने के लिए स्पार्क का उपयोग भी कर सकते हैं। स्पार्क प्रक्रियाओं पर अधिक विवरण के लिए, देखें स्पार्क प्रलेखन.

आपको पहले कुछ सामान्य गुणों को कॉन्फ़िगर करने की आवश्यकता है।

%%configure -f
{
  "conf": {
    "spark.sql.catalog.smfs": "org.apache.iceberg.spark.SparkCatalog",
    "spark.sql.catalog.smfs.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog",
    "spark.sql.catalog.smfs.warehouse": "",
    "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
    "spark.sql.catalog.smfs.glue.skip-name-validation": "true"
  }
}

निम्नलिखित कोड का उपयोग स्पार्क के माध्यम से सुविधा समूहों को अनुकूलित करने के लिए किया जा सकता है।

spark.sql(f"""CALL smfs.system.rewrite_data_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

फिर आप पुराने स्नैपशॉट और ऑर्फ़न फ़ाइलों को हटाने के लिए अगली दो तालिका रखरखाव प्रक्रियाएँ निष्पादित कर सकते हैं जिनकी अब आवश्यकता नहीं है।

spark.sql(f"""CALL smfs.system.expire_snapshots(table => '{DATABASE}.`{ICEBERG_TABLE}`', older_than => TIMESTAMP '{one_day_ago}', retain_last => 1)""")
spark.sql(f"""CALL smfs.system.remove_orphan_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

फिर आप उपरोक्त स्पार्क कमांड को अपने स्पार्क वातावरण में शामिल कर सकते हैं। उदाहरण के लिए, आप एक ऐसी नौकरी बना सकते हैं जो एक वांछित समय पर या अंतर्ग्रहण के बाद एक पाइपलाइन में उपरोक्त अनुकूलन करता है।

पूरे कोड उदाहरण का पता लगाने के लिए, और इसे अपने खाते में आज़माने के लिए, देखें गीथहब रेपो.

निष्कर्ष

सेजमेकर फ़ीचर स्टोर डेटा साइंस टीमों में एमएल विकास को बढ़ाने में संगठनों की मदद करने के लिए एक उद्देश्य-निर्मित सुविधा प्रबंधन समाधान प्रदान करता है। इस पोस्ट में, हमने समझाया कि कैसे आप अपाचे आइसबर्ग को टेबल फॉर्मेट और टेबल मेंटेनेंस ऑपरेशंस जैसे कॉम्पैक्शन के रूप में लाभ उठा सकते हैं, जब बड़े पैमाने पर ऑफ़लाइन सुविधा समूहों के साथ काम करते समय तेजी से प्रश्नों से लाभ होता है और परिणामस्वरूप, प्रशिक्षण डेटासेट तेजी से बनाते हैं। इसे आज़माएं, और हमें बताएं कि आप टिप्पणियों में क्या सोचते हैं।


लेखक के बारे में

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.अरनॉड लॉयर AWS में सार्वजनिक क्षेत्र की टीम में एक वरिष्ठ भागीदार समाधान वास्तुकार हैं। वह भागीदारों और ग्राहकों को यह समझने में सक्षम बनाता है कि व्यावसायिक आवश्यकताओं को समाधान में बदलने के लिए AWS तकनीकों का सर्वोत्तम उपयोग कैसे किया जाए। उनके पास सार्वजनिक क्षेत्र, ऊर्जा और उपभोक्ता वस्तुओं सहित विभिन्न प्रकार के उद्योगों में डिजिटल परिवर्तन परियोजनाओं को वितरित करने और तैयार करने का 17 से अधिक वर्षों का अनुभव है। अरनौद के पास एमएल स्पेशलिटी सर्टिफिकेशन सहित 12 एडब्ल्यूएस प्रमाणपत्र हैं।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.इओन कटाना AWS में एक आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है। वह ग्राहकों को एडब्ल्यूएस क्लाउड में अपने एमएल समाधान विकसित करने और स्केल करने में मदद करता है। इयान के पास ज्यादातर सॉफ्टवेयर आर्किटेक्चर डिजाइन और क्लाउड इंजीनियरिंग में 20 से अधिक वर्षों का अनुभव है।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.मार्क रॉय AWS के लिए एक प्रिंसिपल मशीन लर्निंग आर्किटेक्ट है, जो ग्राहकों को AI / ML समाधान तैयार करने और बनाने में मदद करता है। कंप्यूटर के विज़न, डीप लर्निंग और एंटरप्राइज़ में ML स्केलिंग में प्राथमिक रुचि के साथ, मार्क का काम एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला को कवर करता है। उन्होंने बीमा, वित्तीय सेवाओं, मीडिया और मनोरंजन, स्वास्थ्य सेवा, उपयोगिताओं और विनिर्माण सहित कई उद्योगों में कंपनियों की मदद की है। मार्क में छह AWS प्रमाणपत्र हैं, जिनमें ML विशेषता प्रमाणन भी शामिल है। AWS में शामिल होने से पहले, मार्क 25 साल से अधिक के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे, जिसमें वित्तीय सेवाओं में 19 साल शामिल थे।

सेजमेकर फ़ीचर स्टोर और अपाचे आइसबर्ग ऑफ़लाइन स्टोर कॉम्पैक्शन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके स्पीड एमएल विकास। लंबवत खोज. ऐ.ब्रैंडन चैथम सेजमेकर फीचर स्टोर टीम के साथ एक सॉफ्टवेयर इंजीनियर है। वह सुरुचिपूर्ण प्रणालियों के निर्माण के बारे में गहराई से भावुक है जो बड़े डेटा और मशीन सीखने को लोगों की उंगलियों पर लाते हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग