רנגלר הנתונים של אמזון SageMaker מפחית את הזמן שלוקח לצבור ולהכין נתונים ללמידת מכונה (ML) משבועות לדקות סטודיו SageMaker של אמזון, סביבת הפיתוח המשולבת המלאה הראשונה (IDE) עבור ML. עם Data Wrangler, אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה, מממשק ויזואלי יחיד. אתה יכול לייבא נתונים ממקורות נתונים מרובים כגון שירות אחסון פשוט של אמזון (אמזון S3), האדום של אמזון, פְּתִית שֶׁלֶג, ו 26 מקורות נתונים מאוחדים של שאילתות נתמך על ידי אמזונה אתנה.
החל מהיום, בעת ייבוא נתונים ממקורות נתונים של Athena, אתה יכול להגדיר את מיקום הפלט של השאילתה S3 ותקופת שמירת הנתונים לייבא נתונים ב-Data Wrangler כדי לשלוט היכן וכמה זמן אתנה מאחסנת את הנתונים המתווכים. בפוסט זה, אנו מדריכים אותך דרך התכונה החדשה הזו.
סקירת פתרונות
Athena הוא שירות שאילתות אינטראקטיבי המקל על הגלישה דבק AWS קטלוג נתונים, וניתוח נתונים באמזון S3 ו-26 מקורות נתונים מאוחדים של שאילתות באמצעות SQL סטנדרטי. כאשר אתה משתמש ב- Athena כדי לייבא נתונים, אתה יכול להשתמש במיקום ברירת המחדל של Data Wrangler S3 עבור פלט השאילתה של Athena, או לציין קבוצת עבודה של Athena כדי לאכוף מיקום S3 מותאם אישית. בעבר, היה עליך ליישם זרימות עבודה של ניקוי כדי להסיר את נתוני הביניים האלה, או להגדיר באופן ידני תצורת מחזור חיים של S3 כדי לשלוט בעלויות האחסון ולעמוד בדרישות אבטחת הנתונים של הארגון שלך. זוהי תקורה תפעולית גדולה, ואינה ניתנת להרחבה.
Data Wrangler תומך כעת במיקומי S3 מותאמים אישית ובתקופות שמירת נתונים עבור פלט שאילתת Athena שלך. עם תכונה חדשה זו, אתה יכול לשנות את מיקום פלט השאילתה של Athena לדלי S3 מותאם אישית. כעת יש לך ברירת מחדל למדיניות שמירת נתונים של 5 ימים עבור פלט השאילתה של Athena, ותוכל לשנות זאת כדי לעמוד בדרישות אבטחת הנתונים של הארגון שלך. בהתבסס על תקופת השמירה, פלט השאילתה של Athena בדלי S3 מתנקה אוטומטית. לאחר ייבוא הנתונים, תוכל לבצע ניתוח נתונים חקרני במערך הנתונים הזה ולאחסן את הנתונים הנקיים בחזרה לאמזון S3.
התרשים הבא ממחיש ארכיטקטורה זו.
במקרה השימוש שלנו, אנו משתמשים במערך נתונים לדוגמה של בנק כדי לעבור על הפתרון. זרימת העבודה מורכבת מהשלבים הבאים:
- הורד מערך לדוגמה ולהעלות אותו לדלי S3.
- הגדר דבק AWS הסורק כדי לסרוק את הסכימה ולאחסן את סכימת המטא נתונים בקטלוג הנתונים של AWS Glue Data.
- השתמש ב- Athena כדי לגשת לקטלוג הנתונים כדי לבצע שאילתות בנתונים מ-S3.
- צור זרימת Data Wrangler חדשה כדי להתחבר לאתנה.
- בעת יצירת החיבור, הגדר את ה-TTL לשמירה עבור מערך הנתונים.
- השתמש בחיבור זה בזרימת העבודה ואחסן את הנתונים הנקיים בדלי S3 אחר.
לשם הפשטות, אנו מניחים שכבר הגדרת את סביבת Athena (שלבים 1-3). אנו מפרטים את השלבים הבאים בפוסט זה.
תנאים מוקדמים
כדי להגדיר את סביבת Athena, עיין ב- מדריך למשתמש לקבלת הוראות שלב אחר שלב, והשלם את שלבים 1-3 כמתואר בסעיף הקודם.
ייבא את הנתונים שלך מאתנה ל-Data Wrangler
כדי לייבא את הנתונים שלך, בצע את השלבים הבאים:
- במסוף Studio, בחר את ה משאבים סמל בחלונית הניווט.
- בחרו רנגלר נתונים בתפריט הנפתח.
- בחרו זרימה חדשה.
- על תבואו בחר, בחר אמזונה אתנה.
נפתח דף פרטים שבו אתה יכול להתחבר לאטהנה ולכתוב שאילתת SQL לייבוא ממסד הנתונים. - הזן שם לחיבור שלך.
- לְהַרְחִיב תצורה מתקדמת.
בעת התחברות לאטהנה, Data Wrangler משתמש ב-Amazon S3 כדי לשלב את הנתונים שנשאלו. כברירת מחדל, נתונים אלה מבוצעים במיקום S3s3://sagemaker-{region}-{account_id}/athena/
עם תקופת שמירה של 5 ימים. - בעד מיקום אמזון S3 של תוצאות השאילתה, הזן את מיקום ה-S3 שלך.
- בחר תקופת שמירת הנתונים והגדר את תקופת שמירת הנתונים (עבור פוסט זה, יום אחד).
אם תבטל את הבחירה באפשרות זו, הנתונים יישארו ללא הגבלת זמן.מאחורי הקלעים, Data Wrangler מצרף מדיניות תצורת מחזור חיים של S3 לאותו מיקום S3 כדי לנקות אוטומטית. עיין במדיניות לדוגמה הבאה:אתה צריך
s3:GetLifecycleConfiguration
וs3:PutLifecycleConfiguration
לתפקיד הביצוע של SageMaker שלך ליישם נכון את מדיניות תצורת מחזור החיים. ללא הרשאות אלה, אתה מקבל הודעות שגיאה כאשר אתה מנסה לייבא את הנתונים.הודעת השגיאה הבאה היא דוגמה לחסר
GetLifecycleConfiguration
רשות.הודעת השגיאה הבאה היא דוגמה לחסר
PutLifecycleConfiguration
רשות. - אופציונלי, עבור קבוצת עבודה, אתה יכול לציין קבוצת עבודה של Athena.
קבוצת עבודה של Athena מבודדת משתמשים, צוותים, יישומים או עומסי עבודה לקבוצות, כל אחת עם הרשאות והגדרות תצורה משלה. כאשר אתה מציין קבוצת עבודה, Data Wrangler יורש את הגדרת קבוצת העבודה שהוגדרה ב- Athena. לדוגמה, אם לקבוצת עבודה יש מיקום S3 המוגדר לאחסון תוצאות שאילתות ומאפשר לעקוף את צד הלקוח הגדרות, אינך יכול לערוך את מיקום תוצאת השאילתה S3.כברירת מחדל, Data Wrangler גם שומר עבורך את חיבור Athena. זה מוצג כאריח אתנה חדש ב- תבואו לשונית. אתה תמיד יכול לפתוח מחדש את החיבור הזה כדי לבצע שאילתות ולהביא נתונים שונים לתוך Data Wrangler. - בטל את הבחירה שמור חיבור אם אינך רוצה לשמור את החיבור.
- כדי להגדיר את חיבור Athena, בחר ללא חתימה ל דגימה לייבא את כל מערך הנתונים.
עבור מערכי נתונים גדולים, Data Wrangler מאפשר לך לייבא קבוצת משנה של הנתונים שלך כדי לבנות את זרימת העבודה שלך בשינוי, ולעבד את כל מערך הנתונים רק כאשר אתה מוכן. זה מאיץ את מחזור האיטרציה וחוסך זמן עיבוד ועלות. למידע נוסף על אפשרויות דגימת נתונים שונות הזמינות, בקר Amazon SageMaker Data Wrangler תומך כעת בדגימה אקראית ובדגימה מרובדת. - בעד קטלוג נתוניםבחר AwsDataCatalog.
- בעד מסד נתונים, בחר את מסד הנתונים שלך.
Data Wrangler מציג את הטבלאות הזמינות. אתה יכול לבחור כל טבלה כדי לבדוק את הסכימה ולצפות בתצוגה מקדימה של הנתונים. - הזן את הקוד הבא בשדה השאילתה:
- בחרו הפעלה לתצוגה מקדימה של הנתונים.
- אם הכל נראה טוב, בחר תבואו.
- הזן שם מערך נתונים ובחר להוסיף כדי לייבא את הנתונים לסביבת העבודה של Data Wrangler.
ניתוח ועיבוד נתונים באמצעות Data Wrangler
לאחר טעינת הנתונים ל-Data Wrangler, תוכל לבצע ניתוח נתונים חקרני (EDA) ולהכין את הנתונים ללמידת מכונה.
- בחר את סימן הפלוס שליד
bank-data
מערך הנתונים בזרימת הנתונים, ובחר הוסף ניתוח.
Data Wrangler מספק ניתוחים מובנים, כולל דוח איכות נתונים ותובנות, מתאם נתונים, דוח הטיה לפני אימון, סיכום של מערך הנתונים שלך והדמיות (כגון היסטוגרמות וחלקות פיזור). בנוסף, אתה יכול ליצור הדמיה מותאמת אישית משלך. - בעד סוג ניתוחבחר דוח איכות נתונים ותובנה.
זה יוצר אוטומטית הדמיות, ניתוחים לזיהוי בעיות באיכות הנתונים והמלצות לשינויים הנכונים הנדרשים עבור מערך הנתונים שלך. - בעד עמודת יעד, בחר Y.
- כי זו הצהרת בעיית סיווג, עבור סוג הבעיה, בחר מִיוּן.
- בחרו צור.
Data Wrangler יוצר דוח מפורט על מערך הנתונים שלך. אתה יכול גם להוריד את הדוח למחשב המקומי שלך. - להכנת נתונים, בחר את סימן הפלוס ליד מערך הנתונים של הבנק בזרימת הנתונים, ובחר הוסף טרנספורמציה.
- בחרו הוסף שלב להתחיל לבנות את הטרנספורמציות שלך.
בזמן כתיבת שורות אלה, Data Wrangler מספקת למעלה מ-300 טרנספורמציות מובנות. אתה יכול גם לכתוב טרנספורמציות משלך באמצעות Pandas או PySpark.
עכשיו אתה יכול להתחיל לבנות את השינויים והניתוחים שלך בהתבסס על הדרישות העסקיות שלך.
לנקות את
כדי למנוע עלויות מתמשכות, מחק את משאבי Data Wrangler באמצעות השלבים הבאים כשתסיים.
- בחר סמל ריצה של מופעים וקרנלים.
- תחת הפעלת אפליקציות, לחץ על סמל הכיבוי שליד
sagemaker-data-wrangler-1.0 app
. - בחר כבה הכל כדי לאשר.
סיכום
בפוסט זה, סיפקנו סקירה כללית של התאמה אישית של מיקום S3 שלך והפעלת תצורות מחזור חיים של S3 לייבוא נתונים מאתנה ל-Data Wrangler. עם תכונה זו, אתה יכול לאחסן נתונים מתווכים במיקום S3 מאובטח, ולהסיר אוטומטית את עותק הנתונים לאחר תקופת השמירה כדי להפחית את הסיכון לגישה לא מורשית לנתונים. אנו ממליצים לך לנסות את התכונה החדשה הזו. בניין שמח!
למידע נוסף על Athena ו- SageMaker, בקר באתר מדריך למשתמש של אתנה ו תיעוד אמזון SageMaker.
על המחברים
Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.
חריש ראג'גופאלן הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services. חריש עובדת עם לקוחות ארגוניים ועוזרת להם במסע הענן שלהם.
ג'יימס וו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML. עבודתו של ג'יימס מכסה מגוון רחב של מקרי שימוש ב-ML, עם עניין עיקרי בראייה ממוחשבת, למידה עמוקה והרחבת ML ברחבי הארגון. לפני שהצטרף ל-AWS, ג'יימס היה אדריכל, מפתח ומוביל טכנולוגיה במשך למעלה מ-10 שנים, כולל 6 שנים בהנדסה ו-4 שנים בתעשיות שיווק ופרסום.
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- אמזונה אתנה
- אמזון SageMaker
- רנגלר הנתונים של אמזון SageMaker
- שירות אחסון פשוט של אמזון (S3)
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- גוגל איי
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט