צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler

בפוסט זה, אנו מעבירים אותך דרך שתי טכניקות דגימה ב רנגלר הנתונים של אמזון SageMaker כך שתוכל ליצור במהירות תהליכי עיבוד עבור הנתונים שלך. אנו מכסים גם טכניקות דגימה אקראית וגם טכניקות דגימה מרובדות כדי לעזור לך לדגום את הנתונים שלך על סמך הדרישות הספציפיות שלך.

Data Wrangler מקטין את הזמן שלוקח לצבור ולהכין נתונים ללמידת מכונה (ML) משבועות לדקות. אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה, מממשק ויזואלי יחיד. עם כלי בחירת הנתונים של Data Wrangler, אתה יכול לבחור את הנתונים שאתה רוצה ממקורות נתונים שונים ולייבא אותם בלחיצה אחת. Data Wrangler מכיל למעלה מ-300 טרנספורמציות נתונים מובנות כך שתוכל לנרמל, להפוך ולשלב תכונות במהירות מבלי לכתוב כל קוד. עם תבניות ההדמיה של Data Wrangler, אתה יכול במהירות לצפות בתצוגה מקדימה ולבדוק שהטרנספורמציות הללו הושלמו כפי שהתכוונת על ידי צפייה בהן ב סטודיו SageMaker של אמזון, סביבת הפיתוח המשולבת המלאה הראשונה (IDE) עבור ML. לאחר הכנת הנתונים שלך, תוכל לבנות באמצעותם זרימות עבודה אוטומטיות לחלוטין של ML צינורות SageMaker של אמזון ולשמור אותם לשימוש חוזר ב חנות הפונקציות של אמזון SageMaker.

מהי דגימה ואיך זה יכול לעזור

בניתוח סטטיסטי, קבוצת התצפיות הכוללת ידועה בשם אוכלוסייה. כאשר עובדים עם נתונים, לעתים קרובות אין זה אפשרי מבחינה חישובית למדוד כל תצפית מהאוכלוסייה. דגימה סטטיסטית הוא הליך המאפשר לך להבין את הנתונים שלך על ידי בחירת תת קבוצות מהאוכלוסייה.

הדגימה מציעה פתרון פרקטי המוקריב מעט דיוק למען הפרקטיות והקלות. כדי להבטיח שהמדגם שלך הוא ייצוג טוב של כלל האוכלוסייה, אתה יכול להשתמש באסטרטגיות דגימה. Data Wrangler תומך בשתי מהאסטרטגיות הנפוצות ביותר: דגימה אקראית ו דגימה מרובדת.

דגימה אקראית

אם יש לך מערך נתונים גדול, ניסויים במערך נתונים זה עשויים להיות גוזלים זמן. Data Wrangler מספק דגימה אקראית כדי שתוכל לעבד ולהמחיש את הנתונים שלך ביעילות. לדוגמה, ייתכן שתרצה לחשב את המספר הממוצע של רכישות עבור לקוח בתוך מסגרת זמן, או שתרצה לחשב את שיעור השחיקה של מנוי. אתה יכול להשתמש במדגם אקראי כדי לדמיין קירובים למדדים אלה.

מדגם אקראי ממערך הנתונים שלך נבחר כך שלכל רכיב יש הסתברות שווה להיבחר. פעולה זו מתבצעת בצורה יעילה המתאימה למערכי נתונים גדולים, כך שגודל המדגם המוחזר הוא בערך הגודל המבוקש, ולא בהכרח שווה לגודל המבוקש.

אתה יכול להשתמש בדגימה אקראית אם אתה רוצה לבצע חישובים משוערים מהירים כדי להבין את מערך הנתונים שלך. ככל שגודל המדגם הולך וגדל, המדגם האקראי יכול להעריך טוב יותר את מערך הנתונים כולו, אך אם לא תכלול את כל נקודות הנתונים, ייתכן שהמדגם האקראי שלך לא יכלול את כל החריגים ומקרי הקצה. אם אתה רוצה להכין את כל מערך הנתונים שלך באופן אינטראקטיבי, אתה יכול גם לעבור לסוג מופע גדול יותר.

ככלל, טעות הדגימה בחישוב ממוצע האוכלוסייה באמצעות מדגם אקראי נוטה ל-0 ככל שהמדגם הולך וגדל. ככל שגודל המדגם גדל, השגיאה פוחתת בהיפוך של השורש הריבועי של גודל המדגם. ה- Takeaway, ככל שהמדגם גדול יותר, כך הקירוב טוב יותר.

דגימה מרובדת

במקרים מסוימים, ניתן לחלק את האוכלוסייה שלך לשכבות, או לקטגוריות סותרות זו את זו, כגון מיקום גיאוגרפי עבור כתובות, שנת פרסום עבור שירים או מדרגות מס עבור הכנסה. דגימה אקראית היא טכניקת הדגימה הפופולרית ביותר, אך אם חלק מהשכבות אינן שכיחות באוכלוסיה שלך, תוכל להשתמש בדגימה מרובדת ב-Data Wrangler כדי להבטיח שכל שכבות מיוצגות באופן יחסי במדגם שלך. זה עשוי להיות שימושי כדי לצמצם שגיאות דגימה, כמו גם כדי להבטיח שאתה תופס מקרי קצה במהלך הניסוי שלך.

בעולם האמיתי, עסקאות הונאה בכרטיסי אשראי הן אירועים נדירים ובדרך כלל מהוות פחות מ-1% מהנתונים שלך. אם היינו דוגמים באופן אקראי, אין זה נדיר שהמדגם מכיל מעט מאוד או ללא עסקאות הונאה. כתוצאה מכך, בעת אימון מודל, יהיו לנו מעט מדי דוגמאות הונאה כדי ללמוד מודל מדויק. אנו יכולים להשתמש בדגימה מרובדת כדי לוודא שיש לנו ייצוג יחסי של עסקאות הונאה.

בדגימה מרובדת, גודל כל שכבה במדגם הוא פרופורציונלי לגודל השכבות באוכלוסייה. זה עובד על ידי חלוקת הנתונים שלך לשכבות בהתבסס על העמודה שציינת, בחירת מדגמים אקראיים מכל שכבה עם הפרופורציה הנכונה, ושילוב המדגמים הללו למדגם שכבות של האוכלוסייה.

דגימה מרובדת היא טכניקה שימושית כאשר אתה רוצה להבין כיצד קבוצות שונות בנתונים שלך משתוות זו לזו, וברצונך לוודא שיש לך ייצוג מתאים מכל קבוצה.

דגימה אקראית בעת יבוא מאמזון S3

בסעיף זה, אנו משתמשים בדגימה אקראית עם מערך נתונים המורכב מאירועי הונאה ולא הונאה ממערכת זיהוי ההונאה שלנו. אתה יכול להורדה מערך הנתונים לעקוב יחד עם הפוסט הזה (רישיון ייחוס בינלאומי CC 4.0).

בזמן כתיבת שורות אלה, אתה יכול לייבא מערכי נתונים מ שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, ופתית שלג. מערך הנתונים שלנו גדול מאוד, מכיל מיליון שורות. במקרה זה, אנו רוצים לדגום 1 שורות בייבוא ​​מאמזון S1,0000 לצורך ניסויים אינטראקטיביים בתוך Data Wrangler.

  1. פתח את SageMaker Studio וצור זרימת Data Wrangler חדשה.
  2. תַחַת ייבא נתונים, בחר אמזון S3.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בחר את מערך הנתונים לייבוא.
  4. ב פרטים בחלונית, ספק את שם מערך הנתונים וסוג הקובץ שלך.
  5. בעד דגימה, בחר אַקרַאִי.
  6. בעד גודל המדגם, להיכנס 10000.
  7. בחרו תבואו כדי לטעון את מערך הנתונים לתוך Data Wrangler.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לדמיין שני שלבים נפרדים בדף זרימת הנתונים ב-Data Wrangler. השלב הראשון מציין את טעינת מערך הנתונים לדוגמה בהתבסס על אסטרטגיית הדגימה שהגדרת. לאחר טעינת הנתונים, Data Wrangler מבצע זיהוי אוטומטי של סוגי הנתונים עבור כל אחת מהעמודות במערך הנתונים. שלב זה נוסף כברירת מחדל עבור כל מערכי הנתונים.

כעת תוכל לסקור את הנתונים שנדגמו באקראי ב-Data Wrangler על ידי הוספת ניתוח.

  1. בחר את סימן הפלוס שליד סוגי מידע ולבחור אָנָלִיזָה.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. בעד סוג ניתוחבחר גרף פיזור.
  3. בחרו feat_1 ו feat_2 בנוגע ל ציר X ו ציר Y, בהתאמה.
  4. בעד צבע לפי, בחר זה_הונאה.

כאשר אתה מרגיש בנוח עם מערך הנתונים, המשך לבצע שינויי נתונים נוספים בהתאם לדרישת העסק שלך כדי להכין את הנתונים שלך ל-ML.

בצילום המסך הבא, אנו יכולים לצפות בעסקאות הונאה (כחול כהה) ולא הונאה (תכלת) בניתוח שלנו.
צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בסעיף הבא, נדון בשימוש בדגימה מרובדת כדי להבטיח שמקרים הונאה נבחרים באופן יחסי.

דגימה מרובדת עם טרנספורמציה

Data Wrangler מאפשר לך לדגום בייבוא, כמו גם דגימה באמצעות טרנספורמציה. בסעיף זה, אנו דנים בשימוש בדגימה מרובדת באמצעות טרנספורמציה לאחר שייבאת את מערך הנתונים שלך ל-Data Wrangler.

  1. כדי ליזום דגימה, על זרימת נתונים בכרטיסייה, בחר את סימן הפלוס לצד מערך הנתונים המיובא ובחר הוסף טרנספורמציה.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בזמן כתיבת שורות אלה, Data Wrangler מספקת יותר מ 300 טרנספורמציות מובנות. בנוסף לטרנספורמציות המובנות, אתה יכול לכתוב טרנספורמציות מותאמות אישית משלך ב-Pandas או PySpark.

  1. מ הוסף טרנספורמציה רשימה, בחר דגימה.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת תוכל להשתמש בשלוש אסטרטגיות דגימה שונות: מגבלה, אקראית ושכבתית.
צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בעד שיטת דגימה, בחר מְרוּבָּד.
  2. השתמש is_fraud העמודה כעמודת הריבוד.
  3. בחרו תצוגה מקדימה לתצוגה מקדימה של השינוי, ולאחר מכן בחר להוסיף כדי להוסיף את השינוי הזה כשלב למתכון הטרנספורמציה שלך.
    צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

זרימת הנתונים שלך משקפת כעת את שלב הדגימה שנוסף.
צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת נוכל לסקור את הנתונים שנדגמו באקראי על ידי הוספת ניתוח.

  1. בחר את סימן הפלוס ובחר אָנָלִיזָה.
  2. בעד סוג ניתוחבחר היסטוגרמה.
  3. בחרו זה_הונאה לשניהם ציר X ו צבע לפי.
  4. בחרו תצוגה מקדימה.

בצילום המסך הבא, אנו יכולים לראות את הפירוט של מקרי הונאה (כחול כהה) ולא הונאה (תכלת) שנבחרו באמצעות דגימה שכבתית בפרופורציות הנכונות של 20% הונאה ו-80% לא הונאה.

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

חיוני לדגום נתונים בצורה נכונה כאשר עובדים עם מערכי נתונים גדולים במיוחד ולבחור את אסטרטגיית הדגימה הנכונה כדי לענות על הדרישות העסקיות שלך. האפקטיביות של הדגימה שלך מסתמכת על גורמים שונים, כולל תוצאה עסקית, זמינות נתונים והפצה. בפוסט זה, כיסינו כיצד להשתמש ב-Data Wrangler ובאסטרטגיות הדגימה המובנות שלו כדי להכין את הנתונים שלך.

אתה יכול להתחיל להשתמש ביכולת זו היום בכל האזורים שבהם SageMaker Studio זמין. כדי להתחיל, בקר הכן את נתוני ה- ML עם Amazon SageMaker Data Wrangler.

תודות

המחברים רוצים להודות לג'ונתן צ'ונג (מדען יישומי) על סקירתו והמשוב היקר על מאמר זה.


על הכותבים

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.בן האריס הוא מהנדס תוכנה עם ניסיון בתכנון, פריסה ותחזוקה של קווי נתונים ניתנים להרחבה ופתרונות למידת מכונה במגוון תחומים.

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.וישאל קאפור הוא מדען יישומי בכיר עם AWS AI. הוא נלהב לעזור ללקוחות להבין את הנתונים שלהם ב-Data Wrangler. בזמנו הפנוי הוא רוכב על אופני הרים, עושה סנובורד ומבלה עם משפחתו.

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים של היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.

צור דוגמאות אקראיות ושכבות של נתונים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אג'אי שארמה הוא מנהל מוצר ראשי של Amazon SageMaker, שם הוא מתמקד ב-Data Wrangler, כלי להכנת נתונים חזותיים עבור מדעני נתונים. לפני AWS, אג'אי היה מומחה למדעי נתונים בחברת McKinsey and Company, שם הוביל התקשרויות ממוקדות ML עבור חברות פיננסים וביטוח מובילות ברחבי העולם. אג'אי נלהב ממדעי הנתונים ואוהב לחקור את האלגוריתמים האחרונים וטכניקות למידת מכונה.

בול זמן:

עוד מ למידת מכונות AWS