Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.

Amazon SageMaker Data Wrangler में PySpark और Altair कोड स्निपेट के साथ तेजी से डेटा तैयार करें

अमेज़न SageMaker डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। यह आपको डेटा तक पहुंचने और खोजपूर्ण डेटा विश्लेषण (ईडीए) और फीचर इंजीनियरिंग करने के लिए एक दृश्य इंटरफ़ेस का उपयोग करने की अनुमति देता है। ईडीए सुविधा चार्ट के लिए अंतर्निहित डेटा विश्लेषण क्षमताओं (जैसे स्कैटर प्लॉट या हिस्टोग्राम) और समय बचाने वाली मॉडल विश्लेषण क्षमताओं जैसे फीचर महत्व, लक्ष्य रिसाव, और मॉडल व्याख्यात्मकता के साथ आती है। फीचर इंजीनियरिंग क्षमता में 300 से अधिक बिल्ट-इन ट्रांसफ़ॉर्म हैं और यह Python, PySpark, या Spark SQL रनटाइम का उपयोग करके कस्टम ट्रांसफ़ॉर्मेशन कर सकता है।

कस्टम विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए, डेटा रैंगलर अब सामान्य प्रकार के विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए उदाहरण कोड स्निपेट प्रदान करता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि डेटा रैंगलर में अपने ईडीए को त्वरित रूप से शुरू करने के लिए इन कोड स्निपेट्स का उपयोग कैसे करें।

समाधान अवलोकन

इस लेखन के समय, आप डेटा रैंगलर में डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, डेटाब्रिक्स, और स्नोफ्लेक। इस पोस्ट के लिए, हम 3 Amazon को स्टोर करने के लिए Amazon S2014 का उपयोग करते हैं समीक्षा डेटासेट. निम्नलिखित डेटासेट का एक नमूना है:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" } 

इस पोस्ट में, हम तीन कॉलम का उपयोग करके EDA करते हैं-asin, reviewTime, तथा overall—जो क्रमशः उत्पाद आईडी, समीक्षा समय दिनांक और समग्र समीक्षा स्कोर के लिए मैप करता है। हम इस डेटा का उपयोग महीनों और वर्षों में समीक्षाओं की संख्या के लिए गतिशीलता की कल्पना करने के लिए करते हैं।

डेटा रैंगलर में ईडीए के लिए उदाहरण कोड स्निपेट का उपयोग करना

डेटा रैंगलर में EDA का प्रदर्शन शुरू करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. डाउनलोड डिजिटल संगीत डेटासेट की समीक्षा करता है JSON और इसे Amazon S3 पर अपलोड करें।
    हम इसे ईडीए के लिए कच्चे डेटासेट के रूप में उपयोग करते हैं।
  2. प्रारंभिक अमेज़ॅन सैजमेकर स्टूडियो और एक नया डेटा रैंगलर प्रवाह बनाएं और Amazon S3 से डेटासेट आयात करें।

    इस डेटासेट में नौ कॉलम हैं, लेकिन हम केवल तीन का उपयोग करते हैं: asin, reviewTime, तथा overall. हमें अन्य छह कॉलम छोड़ने होंगे।

  3. एक कस्टम ट्रांसफ़ॉर्म बनाएं और चुनें पायथन (पायस्पार्क).
  4. विस्तार उदाहरण स्निपेट खोजें और चुनें कई को छोड़कर सभी कॉलम ड्रॉप करें.
  5. अपने कस्टम ट्रांसफ़ॉर्म में दिए गए स्निपेट को दर्ज करें और कोड को संशोधित करने के लिए निर्देशों का पालन करें।
    # Specify the subset of columns to keep
    cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)

    अब जबकि हमारे पास वे सभी कॉलम हैं जिनकी हमें आवश्यकता है, आइए डेटा को केवल 2000–2020 के बीच समीक्षाओं को रखने के लिए फ़िल्टर करें।

  6. उपयोग सीमा के बाहर टाइमस्टैम्प फ़िल्टर करें वर्ष 2000 से पहले और 2020 के बाद डेटा ड्रॉप करने के लिए स्निपेट:
    from pyspark.sql.functions import col
    from datetime import datetime # specify the start and the stop timestamp
    timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
    timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

    इसके बाद, हम रिव्यूटाइम कॉलम से साल और महीने निकालते हैं।

  7. उपयोग दिनांक/समय प्रदर्शित करें बदलना।
  8. के लिए कॉलम निकालें, चुनें वर्ष और माह.

    इसके बाद, हम पिछले चरण में बनाई गई समीक्षाओं की संख्या को वर्ष और महीने के आधार पर एकत्रित करना चाहते हैं।

  9. उपयोग समूहों में आँकड़ों की गणना करें स्निपेट:
    # Table is available as variable `df`
    from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
    groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
    # aggregates to use: sum, avg, max, min, mean, count
    aggregate_map = {count: ["overall"]} all_aggregates = []
    for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

  10. से पिछले चरण के एकत्रीकरण का नाम बदलें count(overall) सेवा मेरे reviews_num चुनने के द्वारा कॉलम प्रबंधित करें और कॉलम का नाम बदलें बदलना।
    अंत में, हम साल और महीने के हिसाब से समीक्षाओं के वितरण की कल्पना करने के लिए एक हीटमैप बनाना चाहते हैं।
  11. विश्लेषण टैब पर, चुनें कस्टम विज़ुअलाइज़ेशन.
  12. विस्तार स्निपेट खोजें और चुनें गर्मी के नक्शे ड्रॉप-डाउन मेनू पर।
  13. अपने कस्टम विज़ुअलाइज़ेशन में दिए गए स्निपेट को दर्ज करें:
    # Table is available as variable `df`
    # Table is available as variable `df`
    import altair as alt # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

    हमें निम्नलिखित विज़ुअलाइज़ेशन मिलता है।

    Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.
    यदि आप हीटमैप को और बढ़ाना चाहते हैं, तो आप केवल 2011 से पहले की समीक्षाएं दिखाने के लिए डेटा को स्लाइस कर सकते हैं। 2012 के बाद से बड़ी संख्या में समीक्षाओं के कारण हमारे द्वारा अभी बनाए गए हीटमैप में इनकी पहचान करना कठिन है।

  14. अपने कस्टम विज़ुअलाइज़ेशन में कोड की एक पंक्ति जोड़ें:
    # Table is available as variable `df`
    import altair as alt df = df[df.reviewTime_year < 2011]
    # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

हमें निम्नलिखित हीटमैप मिलता है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.

अब हीटमैप 2011 से पहले की समीक्षाओं को और अधिक स्पष्ट रूप से दर्शाता है: हम मौसमी प्रभावों का निरीक्षण कर सकते हैं (वर्ष का अंत अधिक खरीद और इसलिए अधिक समीक्षाएं लाता है) और विषम महीनों की पहचान कर सकते हैं, जैसे कि अक्टूबर 2003 और मार्च 2005। यह आगे की जांच के लायक है। उन विसंगतियों का कारण निर्धारित करने के लिए।

निष्कर्ष

डेटा रैंगलर एमएल के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। इस पोस्ट में, हमने दिखाया कि डेटा रैंगलर द्वारा प्रदान किए गए कोड स्निपेट का उपयोग करके ईडीए कैसे करें और अपने डेटा को जल्दी से कैसे बदलें। आपको बस एक स्निपेट ढूंढने, कोड दर्ज करने और अपने डेटासेट से मिलान करने के लिए पैरामीटर समायोजित करने की आवश्यकता है। अधिक जटिल विज़ुअलाइज़ेशन और रूपांतरण बनाने के लिए आप अपनी स्क्रिप्ट पर पुनरावृति करना जारी रख सकते हैं।
डेटा रैंगलर के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें.


लेखक के बारे में

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.निकिता इवकिना एक अनुप्रयुक्त वैज्ञानिक, अमेज़ॅन सेजमेकर डेटा रैंगलर है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.हैदर नकवी एडब्ल्यूएस में सॉल्यूशंस आर्किटेक्ट हैं। उनके पास व्यापक सॉफ्टवेयर विकास और उद्यम वास्तुकला का अनुभव है। वह ग्राहकों को AWS के साथ व्यावसायिक परिणाम प्राप्त करने में सक्षम बनाने पर ध्यान केंद्रित करता है। वह न्यूयॉर्क से बाहर आधारित है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.हरीश राजगोपालन Amazon वेब सर्विसेज में सीनियर सॉल्यूशन आर्किटेक्ट हैं। हरीश एंटरप्राइज ग्राहकों के साथ काम करता है और उनकी क्लाउड यात्रा में उनकी मदद करता है।

Amazon SageMaker डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में PySpark और Altair कोड स्निपेट्स के साथ तेज़ी से डेटा तैयार करें। लंबवत खोज. ऐ.जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ एसए हैं। वह ग्राहकों के साथ उनकी क्लाउड यात्रा में तेजी लाने और उनके व्यावसायिक मूल्य प्राप्ति को तेजी से ट्रैक करने के लिए काम करता है। इसके अलावा, जेम्स विभिन्न क्षेत्रों में बड़े एआई/एमएल समाधानों को विकसित करने और उनका विस्तार करने का भी शौक रखता है। एडब्ल्यूएस में शामिल होने से पहले, उन्होंने बाजार और विज्ञापन उद्योग में एक शीर्ष वैश्विक फर्म के लिए एमएल इंजीनियरों और सॉफ्टवेयर डेवलपर्स के साथ एक बहु-अनुशासन नवाचार प्रौद्योगिकी टीम का नेतृत्व किया।

समय टिकट:

से अधिक AWS मशीन लर्निंग