רנגלר הנתונים של אמזון SageMaker מפחית את הזמן לצבירה ולהכנת נתונים ללמידת מכונה (ML) משבועות לדקות. עם Data Wrangler, אתה יכול לבחור ולשאול נתונים בכמה לחיצות, להפוך נתונים במהירות עם למעלה מ-300 טרנספורמציות נתונים מובנות, ולהבין את הנתונים שלך עם הדמיות מובנות מבלי לכתוב שום קוד.
בנוסף, אתה יכול ליצור טרנספורמציות מותאמות אישית ייחודי לדרישות שלך. טרנספורמציות מותאמות אישית מאפשרות לך לכתוב טרנספורמציות מותאמות אישית באמצעות PySpark, Pandas או SQL.
Data Wrangler תומך כעת בהתאמה אישית פונקציה מוגדרת על ידי פנדה טרנספורמציה (UDF) שיכולה לעבד מערכי נתונים גדולים ביעילות. אתה יכול לבחור בין שני מצבי Pandas UDF מותאמים אישית: Pandas ו-Python. שני המצבים מספקים פתרון יעיל לעיבוד מערכי נתונים, והמצב שתבחר תלוי בהעדפה שלך.
בפוסט זה, אנו מדגימים כיצד להשתמש בטרנספורמציה החדשה של Pandas UDF בכל אחד מהמצבים.
סקירת פתרונות
בזמן כתיבת שורות אלה, אתה יכול לייבא מערכי נתונים ל-Data Wrangler מ שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, Databricks ו- Snowflake. עבור פוסט זה, אנו משתמשים באמזון S3 כדי לאחסן את 2014 מערך נתונים של ביקורות של אמזון.
לנתונים יש עמודה בשם reviewText
המכיל טקסט שנוצר על ידי המשתמש. הטקסט מכיל גם כמה עצור מילים, שהן מילים נפוצות שאינן מספקות מידע רב, כגון "a", "an" ו-"the." הסרת מילות עצירה היא שלב עיבוד מקדים נפוץ בצינורות עיבוד שפה טבעית (NLP). אנו יכולים ליצור פונקציה מותאמת אישית כדי להסיר את מילות העצירה מהביקורות.
צור טרנספורמציה מותאמת אישית של Pandas UDF
בואו נעבור על התהליך של יצירת שתי טרנספורמציות פנדה מותאמות אישית של Data Wrangler UDF באמצעות מצבי Pandas ו-Python.
- הורד מערך נתונים של ביקורות מוזיקה דיגיטלית והעלה אותו לאמזון S3.
- להרחיב סטודיו SageMaker של אמזון וליצור זרימת Data Wrangler חדשה.
- תַחַת ייבא נתונים, בחר אמזון S3 ונווט אל מיקום הנתונים.
- בעד סוג קובץ, בחר jsonl.
יש להציג תצוגה מקדימה של הנתונים בטבלה.
- לבחור תבואו להמשיך.
- לאחר ייבוא הנתונים שלך, בחר את סימן הפלוס שליד סוגי מידע ולבחור הוסף טרנספורמציה.
- לבחור טרנספורמציה מותאמת אישית.
- בתפריט הנפתח, Python (פונקציה בהגדרת משתמש).
כעת אנו יוצרים את ההמרה המותאמת אישית שלנו כדי להסיר מילות עצירה.
- ציין את עמודת הקלט, עמודת הפלט, סוג החזרה ומצב.
הדוגמה הבאה משתמשת במצב Pandas. זה אומר שהפונקציה צריכה לקבל ולהחזיר סדרת פנדה באותו אורך. אתה יכול לחשוב על סדרת Pandas כעמודה בטבלה או כחלק מהעמודה. זהו מצב UDF של Pandas בעל הביצועים הגבוהים ביותר, מכיוון ש-Pandas יכול להפעיל וקטור פעולות על פני קבוצות של ערכים, בניגוד לאחד בכל פעם. ה pd.Series
רמזים לסוג נדרשים במצב Pandas.
אם אתה מעדיף להשתמש ב-Python טהור בניגוד ל-Pandas API, מצב Python מאפשר לך לציין פונקציית Python טהורה שמקבלת ארגומנט בודד ומחזירה ערך בודד. הדוגמה הבאה מקבילה לקוד Pandas הקודם מבחינת הפלט. רמזים לסוג אינם נדרשים במצב Python.
- לבחור להוסיף כדי להוסיף את השינוי המותאם אישית שלך.
סיכום
ל-Data Wrangler יש יותר מ-300 טרנספורמציות מובנות, ואתה יכול גם להוסיף טרנספורמציות מותאמות אישית ייחודיות לדרישות שלך. בפוסט זה, הדגמנו כיצד לעבד מערכי נתונים עם טרנספורמציה החדשה של Pandas UDF המותאמת אישית של Data Wrangler, תוך שימוש במצבי Pandas ו-Python כאחד. אתה יכול להשתמש בכל אחד מהמצבים לפי העדפתך. למידע נוסף על Data Wrangler, עיין ב צור והשתמש ב-Data Wrangler Flow.
על הכותבים
בן האריס הוא מהנדס תוכנה עם ניסיון בתכנון, פריסה ותחזוקה של קווי נתונים ניתנים להרחבה ופתרונות למידת מכונה במגוון תחומים. בן בנה בין היתר מערכות לאיסוף ותיוג נתונים, סיווג תמונות וטקסט, מודלים של רצף לרצף, הטמעה ואשכולות.
היידר נקווי הוא אדריכל פתרונות ב-AWS. יש לו ניסיון רב בפיתוח תוכנה וארכיטקטורה ארגונית. הוא מתמקד בלאפשר ללקוחות להשיג תוצאות עסקיות עם AWS. הוא מבוסס מניו יורק.
וישאל סריווסטבה הוא מנהל חשבון טכני ב-AWS. עם רקע בפיתוח תוכנה ואנליטיקה, הוא עובד בעיקר עם מגזר השירותים הפיננסיים ולקוחות עסקיים דיגיטליים ותומך במסע הענן שלהם. בזמנו הפנוי הוא אוהב לטייל עם משפחתו.
- "
- 10
- 100
- 9
- אודות
- חֶשְׁבּוֹן
- לרוחב
- אמזון בעברית
- בין
- ניתוח
- API
- ארכיטקטורה
- זמין
- AWS
- רקע
- מובנה
- עסקים
- לבחור
- מיון
- ענן
- קוד
- אוסף
- טור
- Common
- מכיל
- לִיצוֹר
- יוצרים
- מנהג
- לקוחות
- נתונים
- להפגין
- מופגן
- תלוי
- פריסה
- תכנון
- צעצועי התפתחות
- דיגיטלי
- תחומים
- יעיל
- יעילות
- מה שמאפשר
- מהנדס
- מִפְעָל
- דוגמה
- ניסיון
- נרחב
- משפחה
- כספי
- שירותים פיננסיים
- תזרים
- מתמקד
- הבא
- חופשי
- פונקציה
- איך
- איך
- HTTPS
- תמונה
- מידע
- קלט
- IT
- מצטרף
- תיוג
- שפה
- גָדוֹל
- לִלמוֹד
- למידה
- מיקום
- מכונה
- למידת מכונה
- מנהל
- להתאים
- ML
- יותר
- רוב
- כלי נגינה
- טבעי
- ניו יורק
- תפעול
- להכין
- תצוגה מקדימה
- תהליך
- תהליך
- לספק
- מָהִיר
- מהירות
- נדרש
- דרישות
- לַחֲזוֹר
- החזרות
- חוות דעת של לקוחותינו
- להרחבה
- מגזר
- סדרה
- שירותים
- פָּשׁוּט
- תוכנה
- פיתוח תוכנה
- מהנדס תוכנה
- פִּתָרוֹן
- פתרונות
- רווחים
- אחסון
- חנות
- תומך
- מערכות
- טכני
- דרך
- זמן
- אסימון
- מטבעות
- לשנות
- נסיעות
- להבין
- ייחודי
- להשתמש
- ערך
- מגוון
- לְלֹא
- מילים
- עובד
- כתיבה