הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שימור נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler

רנגלר הנתונים של אמזון SageMaker מפחית את הזמן שלוקח לצבור ולהכין נתונים ללמידת מכונה (ML) משבועות לדקות סטודיו SageMaker של אמזון, סביבת הפיתוח המשולבת המלאה הראשונה (IDE) עבור ML. עם Data Wrangler, אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה, מממשק ויזואלי יחיד. אתה יכול לייבא נתונים ממקורות נתונים מרובים כגון שירות אחסון פשוט של אמזון (אמזון S3), האדום של אמזון, פְּתִית שֶׁלֶג, ו 26 מקורות נתונים מאוחדים של שאילתות נתמך על ידי אמזונה אתנה.

החל מהיום, בעת ייבוא ​​נתונים ממקורות נתונים של Athena, אתה יכול להגדיר את מיקום הפלט של השאילתה S3 ותקופת שמירת הנתונים לייבא נתונים ב-Data Wrangler כדי לשלוט היכן וכמה זמן אתנה מאחסנת את הנתונים המתווכים. בפוסט זה, אנו מדריכים אותך דרך התכונה החדשה הזו.

סקירת פתרונות

Athena הוא שירות שאילתות אינטראקטיבי המקל על הגלישה דבק AWS קטלוג נתונים, וניתוח נתונים באמזון S3 ו-26 מקורות נתונים מאוחדים של שאילתות באמצעות SQL סטנדרטי. כאשר אתה משתמש ב- Athena כדי לייבא נתונים, אתה יכול להשתמש במיקום ברירת המחדל של Data Wrangler S3 עבור פלט השאילתה של Athena, או לציין קבוצת עבודה של Athena כדי לאכוף מיקום S3 מותאם אישית. בעבר, היה עליך ליישם זרימות עבודה של ניקוי כדי להסיר את נתוני הביניים האלה, או להגדיר באופן ידני תצורת מחזור חיים של S3 כדי לשלוט בעלויות האחסון ולעמוד בדרישות אבטחת הנתונים של הארגון שלך. זוהי תקורה תפעולית גדולה, ואינה ניתנת להרחבה.

Data Wrangler תומך כעת במיקומי S3 מותאמים אישית ובתקופות שמירת נתונים עבור פלט שאילתת Athena שלך. עם תכונה חדשה זו, אתה יכול לשנות את מיקום פלט השאילתה של Athena לדלי S3 מותאם אישית. כעת יש לך ברירת מחדל למדיניות שמירת נתונים של 5 ימים עבור פלט השאילתה של Athena, ותוכל לשנות זאת כדי לעמוד בדרישות אבטחת הנתונים של הארגון שלך. בהתבסס על תקופת השמירה, פלט השאילתה של Athena בדלי S3 מתנקה אוטומטית. לאחר ייבוא ​​הנתונים, תוכל לבצע ניתוח נתונים חקרני במערך הנתונים הזה ולאחסן את הנתונים הנקיים בחזרה לאמזון S3.

התרשים הבא ממחיש ארכיטקטורה זו.

במקרה השימוש שלנו, אנו משתמשים במערך נתונים לדוגמה של בנק כדי לעבור על הפתרון. זרימת העבודה מורכבת מהשלבים הבאים:

  1. הורד מערך לדוגמה ולהעלות אותו לדלי S3.
  2. הגדר דבק AWS הסורק כדי לסרוק את הסכימה ולאחסן את סכימת המטא נתונים בקטלוג הנתונים של AWS Glue Data.
  3. השתמש ב- Athena כדי לגשת לקטלוג הנתונים כדי לבצע שאילתות בנתונים מ-S3.
  4. צור זרימת Data Wrangler חדשה כדי להתחבר לאתנה.
  5. בעת יצירת החיבור, הגדר את ה-TTL לשמירה עבור מערך הנתונים.
  6. השתמש בחיבור זה בזרימת העבודה ואחסן את הנתונים הנקיים בדלי S3 אחר.

לשם הפשטות, אנו מניחים שכבר הגדרת את סביבת Athena (שלבים 1-3). אנו מפרטים את השלבים הבאים בפוסט זה.

תנאים מוקדמים

כדי להגדיר את סביבת Athena, עיין ב- מדריך למשתמש לקבלת הוראות שלב אחר שלב, והשלם את שלבים 1-3 כמתואר בסעיף הקודם.

ייבא את הנתונים שלך מאתנה ל-Data Wrangler

כדי לייבא את הנתונים שלך, בצע את השלבים הבאים:

  1. במסוף Studio, בחר את ה משאבים סמל בחלונית הניווט.
  2. בחרו רנגלר נתונים בתפריט הנפתח.
  3. בחרו זרימה חדשה.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. על תבואו בחר, בחר אמזונה אתנה.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    נפתח דף פרטים שבו אתה יכול להתחבר לאטהנה ולכתוב שאילתת SQL לייבוא ​​ממסד הנתונים.
  5. הזן שם לחיבור שלך.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  6. לְהַרְחִיב תצורה מתקדמת.
    בעת התחברות לאטהנה, Data Wrangler משתמש ב-Amazon S3 כדי לשלב את הנתונים שנשאלו. כברירת מחדל, נתונים אלה מבוצעים במיקום S3 s3://sagemaker-{region}-{account_id}/athena/ עם תקופת שמירה של 5 ימים.
  7. בעד מיקום אמזון S3 של תוצאות השאילתה, הזן את מיקום ה-S3 שלך.
  8. בחר תקופת שמירת הנתונים והגדר את תקופת שמירת הנתונים (עבור פוסט זה, יום אחד).
    אם תבטל את הבחירה באפשרות זו, הנתונים יישארו ללא הגבלת זמן.הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.מאחורי הקלעים, Data Wrangler מצרף מדיניות תצורת מחזור חיים של S3 לאותו מיקום S3 כדי לנקות אוטומטית. עיין במדיניות לדוגמה הבאה:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    אתה צריך s3:GetLifecycleConfiguration ו s3:PutLifecycleConfiguration לתפקיד הביצוע של SageMaker שלך ליישם נכון את מדיניות תצורת מחזור החיים. ללא הרשאות אלה, אתה מקבל הודעות שגיאה כאשר אתה מנסה לייבא את הנתונים.

    הודעת השגיאה הבאה היא דוגמה לחסר GetLifecycleConfiguration רשות.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

    הודעת השגיאה הבאה היא דוגמה לחסר PutLifecycleConfiguration רשות.

    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  9. אופציונלי, עבור קבוצת עבודה, אתה יכול לציין קבוצת עבודה של Athena.
    קבוצת עבודה של Athena מבודדת משתמשים, צוותים, יישומים או עומסי עבודה לקבוצות, כל אחת עם הרשאות והגדרות תצורה משלה. כאשר אתה מציין קבוצת עבודה, Data Wrangler יורש את הגדרת קבוצת העבודה שהוגדרה ב- Athena. לדוגמה, אם לקבוצת עבודה יש ​​מיקום S3 המוגדר לאחסון תוצאות שאילתות ומאפשר לעקוף את צד הלקוח הגדרות, אינך יכול לערוך את מיקום תוצאת השאילתה S3.הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.כברירת מחדל, Data Wrangler גם שומר עבורך את חיבור Athena. זה מוצג כאריח אתנה חדש ב- תבואו לשונית. אתה תמיד יכול לפתוח מחדש את החיבור הזה כדי לבצע שאילתות ולהביא נתונים שונים לתוך Data Wrangler.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  10. בטל את הבחירה שמור חיבור אם אינך רוצה לשמור את החיבור.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  11. כדי להגדיר את חיבור Athena, בחר ללא חתימה ל דגימה לייבא את כל מערך הנתונים.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    עבור מערכי נתונים גדולים, Data Wrangler מאפשר לך לייבא קבוצת משנה של הנתונים שלך כדי לבנות את זרימת העבודה שלך בשינוי, ולעבד את כל מערך הנתונים רק כאשר אתה מוכן. זה מאיץ את מחזור האיטרציה וחוסך זמן עיבוד ועלות. למידע נוסף על אפשרויות דגימת נתונים שונות הזמינות, בקר Amazon SageMaker Data Wrangler תומך כעת בדגימה אקראית ובדגימה מרובדת.
  12. בעד קטלוג נתוניםבחר AwsDataCatalog.
  13. בעד מסד נתונים, בחר את מסד הנתונים שלך.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    Data Wrangler מציג את הטבלאות הזמינות. אתה יכול לבחור כל טבלה כדי לבדוק את הסכימה ולצפות בתצוגה מקדימה של הנתונים.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  14. הזן את הקוד הבא בשדה השאילתה:
    Select *
    From bank_additional_full

  15. בחרו הפעלה לתצוגה מקדימה של הנתונים.
  16. אם הכל נראה טוב, בחר תבואו.
  17. הזן שם מערך נתונים ובחר להוסיף כדי לייבא את הנתונים לסביבת העבודה של Data Wrangler.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ניתוח ועיבוד נתונים באמצעות Data Wrangler

לאחר טעינת הנתונים ל-Data Wrangler, תוכל לבצע ניתוח נתונים חקרני (EDA) ולהכין את הנתונים ללמידת מכונה.

  1. בחר את סימן הפלוס שליד bank-data מערך הנתונים בזרימת הנתונים, ובחר הוסף ניתוח.
    Data Wrangler מספק ניתוחים מובנים, כולל דוח איכות נתונים ותובנות, מתאם נתונים, דוח הטיה לפני אימון, סיכום של מערך הנתונים שלך והדמיות (כגון היסטוגרמות וחלקות פיזור). בנוסף, אתה יכול ליצור הדמיה מותאמת אישית משלך.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. בעד סוג ניתוחבחר דוח איכות נתונים ותובנה.
    זה יוצר אוטומטית הדמיות, ניתוחים לזיהוי בעיות באיכות הנתונים והמלצות לשינויים הנכונים הנדרשים עבור מערך הנתונים שלך.
  3. בעד עמודת יעד, בחר Y.
  4. כי זו הצהרת בעיית סיווג, עבור סוג הבעיה, בחר מִיוּן.
  5. בחרו צור.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    Data Wrangler יוצר דוח מפורט על מערך הנתונים שלך. אתה יכול גם להוריד את הדוח למחשב המקומי שלך.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  6. להכנת נתונים, בחר את סימן הפלוס ליד מערך הנתונים של הבנק בזרימת הנתונים, ובחר הוסף טרנספורמציה.
  7. בחרו הוסף שלב להתחיל לבנות את הטרנספורמציות שלך.
    הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בזמן כתיבת שורות אלה, Data Wrangler מספקת למעלה מ-300 טרנספורמציות מובנות. אתה יכול גם לכתוב טרנספורמציות משלך באמצעות Pandas או PySpark.

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עכשיו אתה יכול להתחיל לבנות את השינויים והניתוחים שלך בהתבסס על הדרישות העסקיות שלך.

לנקות את

כדי למנוע עלויות מתמשכות, מחק את משאבי Data Wrangler באמצעות השלבים הבאים כשתסיים.

  1. בחר סמל ריצה של מופעים וקרנלים.
  2. תחת הפעלת אפליקציות, לחץ על סמל הכיבוי שליד sagemaker-data-wrangler-1.0 app.
  3. בחר כבה הכל כדי לאשר.

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בפוסט זה, סיפקנו סקירה כללית של התאמה אישית של מיקום S3 שלך והפעלת תצורות מחזור חיים של S3 לייבוא ​​נתונים מאתנה ל-Data Wrangler. עם תכונה זו, אתה יכול לאחסן נתונים מתווכים במיקום S3 מאובטח, ולהסיר אוטומטית את עותק הנתונים לאחר תקופת השמירה כדי להפחית את הסיכון לגישה לא מורשית לנתונים. אנו ממליצים לך לנסות את התכונה החדשה הזו. בניין שמח!

למידע נוסף על Athena ו- SageMaker, בקר באתר מדריך למשתמש של אתנה ו תיעוד אמזון SageMaker.


על המחברים

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.חריש ראג'גופאלן הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services. חריש עובדת עם לקוחות ארגוניים ועוזרת להם במסע הענן שלהם.

הגדר מיקום פלט שאילתות מותאם אישית של Amazon S3 ומדיניות שמירת נתונים עבור מקורות נתונים של Amazon Athena ב-Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'יימס וו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML. עבודתו של ג'יימס מכסה מגוון רחב של מקרי שימוש ב-ML, עם עניין עיקרי בראייה ממוחשבת, למידה עמוקה והרחבת ML ברחבי הארגון. לפני שהצטרף ל-AWS, ג'יימס היה אדריכל, מפתח ומוביל טכנולוגיה במשך למעלה מ-10 שנים, כולל 6 שנים בהנדסה ו-4 שנים בתעשיות שיווק ופרסום.

בול זמן:

עוד מ למידת מכונות AWS