רנגלר הנתונים של אמזון SageMaker הוא כלי צבירת נתונים והכנה בנוי למטרה עבור למידת מכונה (ML). זה מאפשר לך להשתמש בממשק חזותי כדי לגשת לנתונים ולבצע ניתוח נתונים חקרניים (EDA) והנדסת תכונות. תכונת ה-EDA מגיעה עם יכולות מובנות של ניתוח נתונים עבור תרשימים (כגון תרשים פיזור או היסטוגרמה) ויכולות ניתוח מודלים חוסכות זמן כמו חשיבות תכונה, זליגת יעד ויכולת הסבר מודל. ליכולת הנדסת התכונות יש למעלה מ-300 טרנספורמציות מובנות והיא יכולה לבצע טרנספורמציות מותאמות אישית באמצעות זמן ריצה של Python, PySpark או Spark SQL.
עבור הדמיות והמרות מותאמות אישית, Data Wrangler מספק כעת קטעי קוד לדוגמה עבור סוגים נפוצים של הדמיות והמרות. בפוסט זה, אנו מדגימים כיצד להשתמש בקטעי קוד אלה כדי להתחיל במהירות את ה-EDA שלך ב-Data Wrangler.
סקירת פתרונות
בזמן כתיבת שורות אלה, אתה יכול לייבא מערכי נתונים ל-Data Wrangler מ שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, Databricks ו- Snowflake. עבור פוסט זה, אנו משתמשים באמזון S3 כדי לאחסן את אמזון 2014 מערך נתונים של ביקורות. להלן דוגמה של מערך הנתונים:
בפוסט זה, אנו מבצעים EDA באמצעות שלוש עמודות-asin
, reviewTime
, ו overall
— אשר ממפה את מזהה המוצר, תאריך שעת הביקורת וציון הביקורת הכולל, בהתאמה. אנו משתמשים בנתונים אלה כדי להמחיש דינמיקה של מספר הביקורות על פני חודשים ושנים.
שימוש בקטע קוד לדוגמה עבור EDA ב-Data Wrangler
כדי להתחיל לבצע EDA ב-Data Wrangler, בצע את השלבים הבאים:
- הורד מערך נתונים של ביקורות מוזיקה דיגיטלית JSON והעלה אותו לאמזון S3.
אנו משתמשים בזה בתור מערך הנתונים הגולמי של ה-EDA. - להרחיב סטודיו SageMaker של אמזון וליצור זרימת Data Wrangler חדשה ולייבא את מערך הנתונים מאמזון S3.
למערך נתונים זה יש תשע עמודות, אך אנו משתמשים רק בשלוש:
asin
,reviewTime
, וoverall
. אנחנו צריכים להוריד את ששת העמודות האחרות. - צור טרנספורמציה מותאמת אישית ובחר Python (PySpark).
- לְהַרְחִיב חפש קטעי קוד לדוגמה ולבחור שחרר את כל העמודות מלבד כמה.
- הזן את קטע הקוד שסופק לטרנספורמציה המותאמת אישית שלך ופעל לפי ההנחיות לשינוי הקוד.
עכשיו, כשיש לנו את כל העמודות שאנחנו צריכים, בואו נסנן את הנתונים כדי לשמור ביקורות רק בין השנים 2000-2020.
- השתמש חותמת זמן מסנן מחוץ לטווח קטע להורדת הנתונים לפני שנת 2000 ואחרי 2020:
לאחר מכן, אנו מחלצים את השנה והחודש מעמודת reviewTime.
- השתמש הצג תאריך/שעה שינוי צורה.
- בעד חלץ עמודות, בחר שנה ו חודש.
לאחר מכן, אנו רוצים לצבור את מספר הביקורות לפי שנה וחודש שיצרנו בשלב הקודם.
- השתמש חישוב סטטיסטיקה בקבוצות קטע:
- שנה את שם הצבירה של השלב הקודם מ
count(overall)
לreviews_num
על ידי בחירה נהל עמודות ו שנה את שם העמודה שינוי צורה.
לבסוף, אנו רוצים ליצור מפת חום כדי לדמיין את התפלגות הביקורות לפי שנה ולפי חודש. - בכרטיסיית הניתוח, בחר הדמיה מותאמת אישית.
- לְהַרְחִיב חפש קטע ולבחור מפת חום בתפריט הנפתח.
- הזן את קטע הקוד שסופק להדמיה המותאמת אישית שלך:
אנו מקבלים את ההדמיה הבאה.
אם אתה רוצה לשפר את מפת החום עוד יותר, אתה יכול לחתוך את הנתונים כך שיציגו רק ביקורות לפני 2011. קשה לזהות את אלה במפת החום שיצרנו זה עתה בגלל כמויות גדולות של ביקורות מאז 2012. - הוסף שורת קוד אחת להדמיה המותאמת אישית שלך:
אנו מקבלים את מפת החום הבאה.
כעת מפת החום משקפת את הביקורות שקדמו לשנת 2011 בצורה גלויה יותר: אנו יכולים לראות את ההשפעות העונתיות (סוף השנה מביאה לרכישות רבות יותר ולפיכך יותר ביקורות) ויכולים לזהות חודשים חריגים, כמו אוקטובר 2003 ומרץ 2005. כדאי לחקור עוד יותר. כדי לקבוע את הסיבה לאותן חריגות.
סיכום
Data Wrangler הוא כלי צבירת נתונים והכנה עבור ML. בפוסט זה, הדגמנו כיצד לבצע EDA ולשנות את הנתונים שלך במהירות באמצעות קטעי קוד שסופקו על ידי Data Wrangler. אתה רק צריך למצוא קטע, להזין את הקוד ולהתאים את הפרמטרים כך שיתאימו למערך הנתונים שלך. אתה יכול להמשיך לחזור על הסקריפט שלך כדי ליצור הדמיות ושינויים מורכבים יותר.
למידע נוסף על Data Wrangler, עיין ב צור והשתמש ב-Data Wrangler Flow.
על הכותבים
ניקיטה איבקין הוא מדען יישומי, Amazon SageMaker Data Wrangler.
היידר נקווי הוא אדריכל פתרונות ב-AWS. יש לו ניסיון רב בפיתוח תוכנה וארכיטקטורה ארגונית. הוא מתמקד בלאפשר ללקוחות להשיג תוצאות עסקיות עם AWS. הוא מבוסס מניו יורק.
חריש ראג'גופאלן הוא ארכיטקט פתרונות בכיר בחברת Amazon Web Services. חריש עובדת עם לקוחות ארגוניים ועוזרת להם במסע הענן שלהם.
ג'יימס וו הוא מומחה בכיר בינה מלאכותית/ML SA ב-AWS. הוא עובד עם לקוחות כדי להאיץ את המסע שלהם בענן ולעקוב במהירות אחר מימוש הערך העסקי שלהם. בנוסף לכך, ג'יימס נלהב גם בפיתוח והרחבת פתרונות AI/ML גדולים בתחומים שונים. לפני שהצטרף ל-AWS, הוא הוביל צוות טכנולוגיות חדשנות רב-תחומי עם מהנדסי ML ומפתחי תוכנה עבור חברה גלובלית מובילה בתעשיית השוק והפרסום.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- אודות
- להאיץ
- גישה
- להשיג
- לרוחב
- תוספת
- פרסום
- תעשיות
- מאפשר
- אמזון בעברית
- אמזון שירותי אינטרנט
- אנליזה
- יישומית
- ארכיטקטורה
- זמין
- AWS
- צִיר
- כי
- לפני
- בֵּין
- מובנה
- עסקים
- יכולות
- לגרום
- תרשימים
- לבחור
- ענן
- קוד
- טור
- Common
- להשלים
- מורכב
- להמשיך
- בקרות
- לִיצוֹר
- נוצר
- מנהג
- לקוחות
- נתונים
- ניתוח נתונים
- להפגין
- מופגן
- לקבוע
- מפתחים
- מתפתח
- צעצועי התפתחות
- הפצה
- תחומים
- מטה
- ירידה
- דינמיקה
- תופעות
- מה שמאפשר
- הנדסה
- מהנדסים
- זן
- מִפְעָל
- דוגמה
- אלא
- ניסיון
- נרחב
- מהר יותר
- מאפיין
- בסופו של דבר
- פירמה
- ראשון
- תזרים
- מתמקד
- לעקוב
- הבא
- החל מ-
- פונקציה
- פונקציות
- נוסף
- גלוֹבָּלִי
- גדול
- קבוצה
- יש
- מועיל
- עוזר
- איך
- איך
- HTTPS
- לזהות
- חשיבות
- תעשייה
- חדשנות
- מִמְשָׁק
- IT
- מסע
- שמור
- גָדוֹל
- לִלמוֹד
- למידה
- הוביל
- קו
- רשימה
- מכונה
- למידת מכונה
- מַפָּה
- צעדה
- שוק
- להתאים
- ML
- מודל
- חוֹדֶשׁ
- חודשים
- יותר
- כלי נגינה
- שמות
- ניו יורק
- מספר
- אחר
- מקיף
- לוהט
- ביצוע
- משחק
- להכין
- קודם
- המוצר
- לספק
- ובלבד
- מספק
- לִרְכּוֹשׁ
- רכישות
- כמותי
- מהירות
- חי
- רשום
- משקף
- סקירה
- חוות דעת של לקוחותינו
- דרוג
- מַדְעָן
- שירותים
- פָּשׁוּט
- since
- שישה
- תוכנה
- פיתוח תוכנה
- פתרונות
- מומחה
- התחלה
- סטטיסטיקה
- אחסון
- חנות
- יעד
- נבחרת
- טכנולוגיה
- אל האני
- לכן
- שְׁלוֹשָׁה
- זמן
- כלי
- חלק עליון
- לשנות
- טרנספורמציות
- סוגים
- להשתמש
- ערך
- שונים
- ראיה
- כרכים
- אינטרנט
- שירותי אינטרנט
- מי
- נִפלָא
- עובד
- ראוי
- כתיבה
- X
- שנה
- שנים