Amazon SageMaker डेटा रैंगलर में PySpark और Altair कोड स्निपेट्स के साथ डेटा तेज़ी से तैयार करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न SageMaker डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। यह आपको डेटा तक पहुंचने और खोजपूर्ण डेटा विश्लेषण (ईडीए) और फीचर इंजीनियरिंग करने के लिए एक दृश्य इंटरफ़ेस का उपयोग करने की अनुमति देता है। ईडीए सुविधा चार्ट के लिए अंतर्निहित डेटा विश्लेषण क्षमताओं (जैसे स्कैटर प्लॉट या हिस्टोग्राम) और समय बचाने वाली मॉडल विश्लेषण क्षमताओं जैसे फीचर महत्व, लक्ष्य रिसाव, और मॉडल व्याख्यात्मकता के साथ आती है। फीचर इंजीनियरिंग क्षमता में 300 से अधिक बिल्ट-इन ट्रांसफ़ॉर्म हैं और यह Python, PySpark, या Spark SQL रनटाइम का उपयोग करके कस्टम ट्रांसफ़ॉर्मेशन कर सकता है।

कस्टम विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए, डेटा रैंगलर अब सामान्य प्रकार के विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए उदाहरण कोड स्निपेट प्रदान करता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि डेटा रैंगलर में अपने ईडीए को त्वरित रूप से शुरू करने के लिए इन कोड स्निपेट्स का उपयोग कैसे करें।

समाधान अवलोकन

इस लेखन के समय, आप डेटा रैंगलर में डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, डेटाब्रिक्स, और स्नोफ्लेक। इस पोस्ट के लिए, हम 3 Amazon को स्टोर करने के लिए Amazon S2014 का उपयोग करते हैं समीक्षा डेटासेट. निम्नलिखित डेटासेट का एक नमूना है:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

इस पोस्ट में, हम तीन कॉलम का उपयोग करके EDA करते हैं-asin, reviewTime, तथा overall—जो क्रमशः उत्पाद आईडी, समीक्षा समय दिनांक और समग्र समीक्षा स्कोर के लिए मैप करता है। हम इस डेटा का उपयोग महीनों और वर्षों में समीक्षाओं की संख्या के लिए गतिशीलता की कल्पना करने के लिए करते हैं।

डेटा रैंगलर में ईडीए के लिए उदाहरण कोड स्निपेट का उपयोग करना

डेटा रैंगलर में EDA का प्रदर्शन शुरू करने के लिए, निम्नलिखित चरणों को पूरा करें:

डाउनलोड डिजिटल संगीत डेटासेट की समीक्षा करता है JSON और इसे Amazon S3 पर अपलोड करें।
हम इसे ईडीए के लिए कच्चे डेटासेट के रूप में उपयोग करते हैं।
प्रारंभिक अमेज़ॅन सैजमेकर स्टूडियो और एक नया डेटा रैंगलर प्रवाह बनाएं और Amazon S3 से डेटासेट आयात करें।

इस डेटासेट में नौ कॉलम हैं, लेकिन हम केवल तीन का उपयोग करते हैं: asin, reviewTime, तथा overall. हमें अन्य छह कॉलम छोड़ने होंगे।
एक कस्टम ट्रांसफ़ॉर्म बनाएं और चुनें पायथन (पायस्पार्क).
विस्तार उदाहरण स्निपेट खोजें और चुनें कई को छोड़कर सभी कॉलम ड्रॉप करें.
अपने कस्टम ट्रांसफ़ॉर्म में दिए गए स्निपेट को दर्ज करें और कोड को संशोधित करने के लिए निर्देशों का पालन करें।
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
अब जबकि हमारे पास वे सभी कॉलम हैं जिनकी हमें आवश्यकता है, आइए डेटा को केवल 2000–2020 के बीच समीक्षाओं को रखने के लिए फ़िल्टर करें।
उपयोग सीमा के बाहर टाइमस्टैम्प फ़िल्टर करें वर्ष 2000 से पहले और 2020 के बाद डेटा ड्रॉप करने के लिए स्निपेट:
```
from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))
```
इसके बाद, हम रिव्यूटाइम कॉलम से साल और महीने निकालते हैं।
उपयोग दिनांक/समय प्रदर्शित करें बदलना।
के लिए कॉलम निकालें, चुनें वर्ष और माह.

इसके बाद, हम पिछले चरण में बनाई गई समीक्षाओं की संख्या को वर्ष और महीने के आधार पर एकत्रित करना चाहते हैं।

उपयोग समूहों में आँकड़ों की गणना करें स्निपेट:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

से पिछले चरण के एकत्रीकरण का नाम बदलें count(overall) सेवा मेरे reviews_num चुनने के द्वारा कॉलम प्रबंधित करें और कॉलम का नाम बदलें बदलना।
अंत में, हम साल और महीने के हिसाब से समीक्षाओं के वितरण की कल्पना करने के लिए एक हीटमैप बनाना चाहते हैं।
विश्लेषण टैब पर, चुनें कस्टम विज़ुअलाइज़ेशन.
विस्तार स्निपेट खोजें और चुनें गर्मी के नक्शे ड्रॉप-डाउन मेनू पर।
अपने कस्टम विज़ुअलाइज़ेशन में दिए गए स्निपेट को दर्ज करें:
```
# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)
```
हमें निम्नलिखित विज़ुअलाइज़ेशन मिलता है।

यदि आप हीटमैप को और बढ़ाना चाहते हैं, तो आप केवल 2011 से पहले की समीक्षाएं दिखाने के लिए डेटा को स्लाइस कर सकते हैं। 2012 के बाद से बड़ी संख्या में समीक्षाओं के कारण हमारे द्वारा अभी बनाए गए हीटमैप में इनकी पहचान करना कठिन है।

अपने कस्टम विज़ुअलाइज़ेशन में कोड की एक पंक्ति जोड़ें:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

हमें निम्नलिखित हीटमैप मिलता है।

अब हीटमैप 2011 से पहले की समीक्षाओं को और अधिक स्पष्ट रूप से दर्शाता है: हम मौसमी प्रभावों का निरीक्षण कर सकते हैं (वर्ष का अंत अधिक खरीद और इसलिए अधिक समीक्षाएं लाता है) और विषम महीनों की पहचान कर सकते हैं, जैसे कि अक्टूबर 2003 और मार्च 2005। यह आगे की जांच के लायक है। उन विसंगतियों का कारण निर्धारित करने के लिए।

निष्कर्ष

डेटा रैंगलर एमएल के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। इस पोस्ट में, हमने दिखाया कि डेटा रैंगलर द्वारा प्रदान किए गए कोड स्निपेट का उपयोग करके ईडीए कैसे करें और अपने डेटा को जल्दी से कैसे बदलें। आपको बस एक स्निपेट ढूंढने, कोड दर्ज करने और अपने डेटासेट से मिलान करने के लिए पैरामीटर समायोजित करने की आवश्यकता है। अधिक जटिल विज़ुअलाइज़ेशन और रूपांतरण बनाने के लिए आप अपनी स्क्रिप्ट पर पुनरावृति करना जारी रख सकते हैं।
डेटा रैंगलर के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें.

लेखक के बारे में

निकिता इवकिना एक अनुप्रयुक्त वैज्ञानिक, अमेज़ॅन सेजमेकर डेटा रैंगलर है।

हैदर नकवी एडब्ल्यूएस में सॉल्यूशंस आर्किटेक्ट हैं। उनके पास व्यापक सॉफ्टवेयर विकास और उद्यम वास्तुकला का अनुभव है। वह ग्राहकों को AWS के साथ व्यावसायिक परिणाम प्राप्त करने में सक्षम बनाने पर ध्यान केंद्रित करता है। वह न्यूयॉर्क से बाहर आधारित है।

हरीश राजगोपालन Amazon वेब सर्विसेज में सीनियर सॉल्यूशन आर्किटेक्ट हैं। हरीश एंटरप्राइज ग्राहकों के साथ काम करता है और उनकी क्लाउड यात्रा में उनकी मदद करता है।

जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ एसए हैं। वह ग्राहकों के साथ उनकी क्लाउड यात्रा में तेजी लाने और उनके व्यावसायिक मूल्य प्राप्ति को तेजी से ट्रैक करने के लिए काम करता है। इसके अलावा, जेम्स विभिन्न क्षेत्रों में बड़े एआई/एमएल समाधानों को विकसित करने और उनका विस्तार करने का भी शौक रखता है। एडब्ल्यूएस में शामिल होने से पहले, उन्होंने बाजार और विज्ञापन उद्योग में एक शीर्ष वैश्विक फर्म के लिए एमएल इंजीनियरों और सॉफ्टवेयर डेवलपर्स के साथ एक बहु-अनुशासन नवाचार प्रौद्योगिकी टीम का नेतृत्व किया।

समय टिकट: 15 जून 2022

समय टिकट: नवम्बर 30, 2022

Amazon SageMaker Data Wrangler में PySpark और Altair कोड स्निपेट के साथ तेजी से डेटा तैयार करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

डेटा रैंगलर में ईडीए के लिए उदाहरण कोड स्निपेट का उपयोग करना

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

श्वेतपत्र: स्वास्थ्य देखभाल और जीवन विज्ञान में मशीन लर्निंग सर्वोत्तम अभ्यास

Amazon SageMaker Data Wrangler के साथ इमेज डेटा तैयार करें

प्रदर्शन को अधिकतम करें और AWS ट्रेनियम और Amazon SageMaker के साथ अपनी गहन शिक्षण प्रशिक्षण लागत को कम करें

AI21 Jurassic-1 फाउंडेशन मॉडल अब Amazon SageMaker पर उपलब्ध है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा