הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler

נתוני סדרות זמן נוכחים באופן נרחב בחיינו. מחירי מניות, מחירי בתים, מידע על מזג האוויר ונתוני מכירות שנלכדו לאורך זמן הם רק כמה דוגמאות. ככל שעסקים מחפשים יותר ויותר דרכים חדשות להשיג תובנות משמעותיות מנתונים מסדרות זמן, היכולת לדמיין נתונים וליישם טרנספורמציות רצויות הן צעדים בסיסיים. עם זאת, נתוני סדרות זמן הם בעלי מאפיינים וניואנסים ייחודיים בהשוואה לסוגים אחרים של נתונים טבלאיים, ודורשים שיקולים מיוחדים. לדוגמה, נתוני טבלה או חתך סטנדרטיים נאספים בנקודת זמן מסוימת. לעומת זאת, נתוני סדרות זמן נקלטים שוב ושוב לאורך זמן, כאשר כל נקודת נתונים עוקבים תלויה בערכי העבר שלה.

מכיוון שרוב ניתוחי סדרות הזמן מסתמכים על המידע שנאסף על פני מערך רציף של תצפיות, נתונים חסרים ודלילות אינהרנטית יכולים להפחית את הדיוק של התחזיות ולהציג הטיה. בנוסף, רוב גישות ניתוח סדרות הזמן מסתמכות על מרווח שווה בין נקודות הנתונים, במילים אחרות, מחזוריות. לכן, היכולת לתקן אי סדרים בריווח נתונים היא תנאי מוקדם קריטי. לבסוף, ניתוח סדרות זמן דורש לעתים קרובות יצירת תכונות נוספות שיכולות לעזור להסביר את הקשר המובנה בין נתוני קלט ותחזיות עתידיות. כל הגורמים הללו מבדילים בין פרויקטים של סדרות זמן לבין תרחישים מסורתיים של למידת מכונה (ML) ודורשים גישה מובחנת לניתוח שלה.

פוסט זה יסביר כיצד להשתמש רנגלר הנתונים של אמזון SageMaker כדי להחיל טרנספורמציות של סדרות זמן ולהכין את מערך הנתונים שלך למקרי שימוש בסדרות זמן.

מקרי שימוש עבור Data Wrangler

Data Wrangler מספקת פתרון ללא קוד/קוד נמוך לניתוח סדרות זמן עם תכונות לניקוי, שינוי והכנת נתונים מהר יותר. זה גם מאפשר למדעני נתונים להכין נתוני סדרות זמן בהתאם לדרישות פורמט הקלט של מודל החיזוי שלהם. להלן מספר דרכים בהן תוכל להשתמש ביכולות הללו:

  • אבחון מתואר- בדרך כלל, שלב ראשון בכל פרויקט מדעי הנתונים הוא הבנת הנתונים. כאשר אנו מתווים נתוני סדרות זמן, אנו מקבלים סקירה ברמה גבוהה של הדפוסים שלה, כגון מגמה, עונתיות, מחזורים וגרסאות אקראיות. זה עוזר לנו להחליט על מתודולוגיית החיזוי הנכונה לייצוג מדויק של דפוסים אלה. תכנון יכול גם לעזור לזהות חריגים, ולמנוע תחזיות לא מציאותיות ולא מדויקות. Data Wrangler מגיע עם א הדמיית פירוק של מגמת עונתיות לייצוג רכיבים של סדרת זמן, וכן הדמיית זיהוי חריגים לזהות חריגים.
  • ניתוח מסביר- עבור סדרות זמן מרובות-משתנים, היכולת לחקור, לזהות ולדגמן את הקשר בין שתי סדרות זמן או יותר חיונית להשגת תחזיות משמעותיות. ה לפי קבוצה transform in Data Wrangler יוצר סדרות זמן מרובות על ידי קיבוץ נתונים עבור תאים שצוינו. בנוסף, טרנספורמציות של סדרות זמן של Data Wrangler, היכן שניתן, מאפשרות לציין עמודות מזהות נוספות לקיבוץ, מה שמאפשר ניתוח סדרות זמן מורכבות.
  • הכנת נתונים והנדסת תכונות- נתוני סדרות זמן הם לעתים רחוקות בפורמט המצופה על ידי מודלים של סדרות זמן. לעתים קרובות נדרשת הכנת נתונים כדי להמיר נתונים גולמיים לתכונות ספציפיות לסדרות זמן. ייתכן שתרצה לאמת שנתוני סדרת זמן מרווחים באופן קבוע או שווה לפני הניתוח. עבור חיזוי מקרי שימוש, ייתכן שתרצה גם לשלב מאפיינים נוספים של סדרות זמן, כגון קורלציה אוטומטית ומאפיינים סטטיסטיים. עם Data Wrangler, אתה יכול ליצור במהירות תכונות של סדרות זמן כגון עמודות השהייה עבור תקופות פיגור מרובות, דגימת נתונים מחדש לפי גרעיני זמן מרובים, ולחלץ אוטומטית מאפיינים סטטיסטיים של סדרת זמן, כדי לציין כמה יכולות.

סקירת פתרונות

פוסט זה מרחיב כיצד מדעני נתונים ואנליסטים יכולים להשתמש ב-Data Wrangler כדי להמחיש ולהכין נתוני סדרות זמן. אנו משתמשים במערך הנתונים של מטבעות הביטקוין מ הורדת קריפטו עם פרטי מסחר בביטקוין כדי להציג את היכולות הללו. אנו מנקים, מאמתים ומשנים את מערך הנתונים הגולמי עם תכונות של סדרות זמן ומייצרים גם תחזיות של מחירי ביטקוין תוך שימוש במערך הנתונים שעבר שינוי כקלט.

המדגם של נתוני המסחר בביטקוין הוא מ-1 בינואר עד 19 בנובמבר 2021, עם 464,116 נקודות נתונים. תכונות הנתונים כוללות חותמת זמן של רשומת המחיר, המחיר הפתיחה או הראשון שבו הוחלף המטבע ליום מסוים, המחיר הגבוה ביותר שבו הוחלף המטבע ביום, המחיר האחרון שבו הוחלף המטבע ביום. היום, הנפח שהוחלף בערך המטבע הקריפטוגרפי ביום ב-BTC, ובמטבע הדולר המקביל.

תנאים מוקדמים

הורד Bitstamp_BTCUSD_2021_minute.csv קובץ מ- הורדת קריפטו ולהעלות אותו ל שירות אחסון פשוט של אמזון (Amazon S3).

ייבא מערך נתונים של ביטקוין ב-Data Wrangler

כדי להתחיל את תהליך ההטמעה ל-Data Wrangler, בצע את השלבים הבאים:

  1. על סטודיו SageMaker קונסולה, על שלח בתפריט, בחר חדש, ואז לבחור זרימת רנגלר נתונים.
  2. שנה את שם הזרימה כרצונך.
  3. בעד ייבא נתונים, בחר אמזון S3.
  4. העלה את ה- Bitstamp_BTCUSD_2021_minute.csv קובץ מהדלי S3 שלך.

כעת תוכל להציג תצוגה מקדימה של מערך הנתונים שלך.

  1. ב פרטים חלונית, בחר תצורה מתקדמת ובטל את הבחירה אפשר דגימה.

זהו מערך נתונים קטן יחסית, כך שאיננו זקוקים לדגימה.

  1. בחרו תבואו.

יצרת בהצלחה את דיאגרמת הזרימה ואתה מוכן להוסיף שלבי טרנספורמציה.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הוסף טרנספורמציות

כדי להוסיף שינויי נתונים, בחר את סימן הפלוס שלצד סוגי מידע ולבחור ערוך סוגי נתונים.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ודא ש-Data Wrangler הסיק אוטומטית את סוגי הנתונים הנכונים עבור עמודות הנתונים.

במקרה שלנו, סוגי הנתונים המתקבלים נכונים. עם זאת, נניח שסוג נתונים אחד לא היה נכון. אתה יכול לשנות אותם בקלות דרך ממשק המשתמש, כפי שמוצג בצילום המסך הבא.

לערוך ולבדוק סוגי נתונים

בואו נתחיל בניתוח ונתחיל להוסיף טרנספורמציות.

ניקוי נתונים

תחילה אנו מבצעים מספר טרנספורמציות של ניקוי נתונים.

זרוק טור

בואו נתחיל בהורדת ה- unix העמודה, מכיוון שאנו משתמשים ב- date העמודה כאינדקס.

  1. בחרו חזרה לזרימת הנתונים.
  2. בחר את סימן הפלוס שליד סוגי מידע ולבחור הוסף טרנספורמציה.
  3. בחרו + הוסף שלב ב טרנספורמציות שִׁמשָׁה.
  4. בחרו נהל עמודות.
  5. בעד לשנות, בחר זרוק טור.
  6. בעד עמודה להורדה, בחר יוניקס.
  7. בחרו תצוגה מקדימה.
  8. בחרו להוסיף כדי להציל את הצעד.

ידית חסרה

נתונים חסרים היא בעיה ידועה במערכי נתונים בעולם האמיתי. לכן, שיטת העבודה הטובה ביותר היא לאמת את נוכחותם של ערכים חסרים או ריק ולטפל בהם כראוי. מערך הנתונים שלנו אינו מכיל ערכים חסרים. אבל אם היו, היינו משתמשים ב- ידית חסרה שינוי סדרות זמן כדי לתקן אותם. אסטרטגיות נפוצות לטיפול בנתונים חסרים כוללות ביטול שורות עם ערכים חסרים או מילוי הערכים החסרים בהערכות סבירות. מכיוון שנתוני סדרות זמן מסתמכים על רצף של נקודות נתונים לאורך זמן, מילוי ערכים חסרים היא הגישה המועדפת. תהליך מילוי הערכים החסרים מכונה זקיפה. ה ידית חסרה טרנספורמציה של סדרת זמן מאפשרת לך לבחור מבין אסטרטגיות זקיפה מרובות.

  1. בחרו + הוסף שלב ב טרנספורמציות שִׁמשָׁה.
  2. בחר את סדרת זמן שינוי צורה.
  3. בעד לשנות, בחר ידית חסרה.
  4. בעד סוג קלט של סדרת זמן, בחר לאורך העמוד.
  5. בעד שיטה לזקיפת ערכים, בחר מילוי קדימה.

השמיים מילוי קדימה השיטה מחליפה את הערכים החסרים בערכים הלא חסרים הקודמים לערכים החסרים.

לטפל בהמרת סדרות זמן חסרות

מילוי אחורה, ערך קבוע, הערך הנפוץ ביותר ו אינטרפולציה הן אסטרטגיות זקיפה אחרות הזמינות ב-Data Wrangler. טכניקות אינטרפולציה מסתמכות על ערכים שכנים למילוי ערכים חסרים. נתוני סדרות זמן מראים לעתים קרובות מתאם בין ערכים שכנים, מה שהופך את האינטרפולציה לאסטרטגיית מילוי יעילה. לפרטים נוספים על הפונקציות בהן תוכל להשתמש להחלת אינטרפולציה, עיין pandas.DataFrame.interpolate.

אמת חותמת זמן

בניתוח סדרות זמן, עמודת חותמת הזמן פועלת כעמודת האינדקס, שסביבה סובבת הניתוח. לכן, חיוני לוודא שעמודת חותמת הזמן אינה מכילה ערכי חותמת זמן לא חוקיים או בפורמט שגוי. כי אנחנו משתמשים ב- date העמודה כעמודת חותמת הזמן והאינדקס, בואו נוודא שהערכים שלה מעוצבים בצורה נכונה.

  1. בחרו + הוסף שלב ב טרנספורמציות שִׁמשָׁה.
  2. בחר את סדרת זמן שינוי צורה.
  3. בעד שינוי צורה, לבחור אמת חותמות זמן.

השמיים אמת חותמות זמן טרנספורמציה מאפשרת לך לבדוק שלעמודת חותמת הזמן במערך הנתונים שלך אין ערכים עם חותמת זמן שגויה או ערכים חסרים.

  1. בעד עמודת חותמת זמן, בחר נתונים.
  2. בעד מדיניות תפריט נפתח, בחר מצביע.

השמיים מצביע אפשרות המדיניות יוצרת עמודה בוליאנית המציינת אם הערך בעמודת חותמת הזמן הוא פורמט תאריך/שעה חוקי. אפשרויות אחרות עבור מדיניות כוללות:

  • שְׁגִיאָה - זורק שגיאה אם ​​עמודת חותמת הזמן חסרה או לא חוקית
  • ירידה – שומט את השורה אם עמודת חותמת הזמן חסרה או אינה חוקית
  1. בחרו תצוגה מקדימה.

עמודה בוליאנית חדשה בשם date_is_valid נוצר, עם true ערכים המציינים פורמט נכון וערכים שאינם אפסים. מערך הנתונים שלנו אינו מכיל ערכי חותמת זמן לא חוקיים ב- date טור. אבל אם כן, תוכל להשתמש בעמודה הבוליאנית החדשה כדי לזהות ולתקן את הערכים הללו.

אמת טרנספורמציה של סדרת זמן של חותמת זמן

  1. בחרו להוסיף כדי לשמור את הצעד הזה.

הדמיה של סדרות זמן

לאחר שננקה ונאמת את מערך הנתונים, נוכל לדמיין טוב יותר את הנתונים כדי להבין את המרכיב השונה שלו.

דגימה מחדש

מכיוון שאנו מעוניינים בתחזיות יומיות, בואו נהפוך את תדירות הנתונים ליומיים.

השמיים דגימה מחדש טרנספורמציה משנה את התדירות של תצפיות סדרת הזמן לפירוט מוגדר, ומגיעה עם אפשרויות דגימה והורדה כאחד. הפעלת דגימה מעלה מגדילה את תדירות התצפיות (למשל מיומי לשעה), ואילו דגימה מופחתת מקטין את תדירות התצפיות (למשל משעה ליומי).

מכיוון שמערך הנתונים שלנו הוא בפירוט דקה, בואו נשתמש באפשרות הדגימה ההורדת.

  1. בחרו + הוסף שלב.
  2. בחר את סדרת זמן שינוי צורה.
  3. בעד לשנות, בחר דגימה מחדש.
  4. בעד חותם זמן, בחר נתונים.
  5. בעד יחידת תדר, בחר יום לוח שנה.
  6. בעד כמות תדירות, הזן 1.
  7. בעד שיטה לצבירה של ערכים מספריים, בחר אומר.
  8. בחרו תצוגה מקדימה.

התדירות של מערך הנתונים שלנו השתנתה מדקה ליומית.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בחרו להוסיף כדי לשמור את הצעד הזה.

פירוק עונתי-מגמה

לאחר דגימה מחדש, נוכל לדמיין את הסדרה שעברה טרנספורמציה ואת רכיבי STL (פירוק עונתיים ומגמה באמצעות LOESS) הקשורים לה באמצעות עונתי-טרנד-פירוק רְאִיָה. זה מפרק סדרות זמן מקוריות לטרנדים, עונתיות ורכיבים שיוריים ברורים, מה שנותן לנו הבנה טובה של איך כל דפוס מתנהג. אנו יכולים גם להשתמש במידע בעת בניית מודלים של בעיות חיזוי.

Data Wrangler משתמש ב-LOESS, שיטה סטטיסטית חזקה ורב-תכליתית למידול מגמות ורכיבים עונתיים. היישום הבסיסי שלו משתמש ברגרסיה פולינומית להערכת קשרים לא ליניאריים הקיימים ברכיבי סדרת הזמן (עונתיות, מגמה ושאריות).

  1. בחרו חזרה לזרימת הנתונים.
  2. בחר את סימן הפלוס שליד צעדים on זרימת נתונים.
  3. בחרו הוסף ניתוח.
  4. ב צור ניתוח חלונית, עבור סוג ניתוח, לבחור סדרת זמן.
  5. בעד ראיה, בחר פירוק עונתי-מגמה.
  6. בעד שם ניתוח, הכנס שם.
  7. בעד עמודת חותמת זמן, בחר נתונים.
  8. בעד עמודת ערך, בחר נפח דולר.
  9. בחרו תצוגה מקדימה.

הניתוח מאפשר לנו להמחיש את סדרת הזמנים של הקלט ואת העונתיות המפורקת, המגמה והשאריות.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בחרו שמור כדי לשמור את הניתוח.

עם הדמיית פירוק מגמה עונתית, נוכל ליצור ארבעה תבניות, כפי שמוצג בצילום המסך הקודם:

  • מְקוֹרִי – סדרת הזמן המקורית נדגמה מחדש לפירוט יומי.
  • מְגַמָה – מגמת הפולינום עם דפוס מגמה שלילי כולל לשנת 2021, המצביע על ירידה ב Volume USD ערך.
  • עונה – העונתיות הכפלית המיוצגת על ידי דפוסי התנודה המשתנים. אנו רואים ירידה בשונות העונתית, המאופיינת בירידה באמפליטודה של תנודות.
  • שיורית – שאר הרעשים או הרעש האקראי. הסדרה השארית היא הסדרה המתקבלת לאחר הסרת רכיבי מגמה ועונתיים. בהסתכלות מקרוב, אנו רואים עליות עליות בין ינואר למרץ, ובין אפריל ליוני, מה שמציע מקום למודל אירועים ספציפיים כאלה באמצעות נתונים היסטוריים.

הדמיות אלה מספקות לידים חשובים למדעני נתונים ואנליסטים לדפוסים קיימים ויכולים לעזור לך לבחור אסטרטגיית מודלים. עם זאת, זה תמיד שיטה טובה לאמת את הפלט של פירוק STL עם המידע שנאסף באמצעות ניתוח תיאורי ומומחיות בתחום.

לסיכום, אנו רואים מגמת ירידה התואמת להדמיית סדרה מקורית, אשר מגבירה את הביטחון שלנו בשילוב המידע המועבר על ידי הדמיית מגמה בקבלת החלטות במורד הזרם. לעומת זאת, הדמיית העונתיות עוזרת ליידע את נוכחותה של עונתיות ואת הצורך בהסרתה על ידי יישום טכניקות כגון הבדלים, היא אינה מספקת את הרמה הרצויה של תובנה מפורטת לגבי דפוסים עונתיים שונים, ובכך דורשת ניתוח מעמיק יותר.

הנדסת תכונות

לאחר שנבין את הדפוסים הקיימים במערך הנתונים שלנו, נוכל להתחיל להנדס תכונות חדשות שמטרתן להגביר את הדיוק של דגמי החיזוי.

הצג תאריך ושעה

בואו נתחיל את תהליך הנדסת התכונות עם תכונות תאריך/שעה פשוטות יותר. תכונות תאריך/שעה נוצרות מתוך timestamp עמודה ולספק שדרה אופטימלית עבור מדעני נתונים להתחיל את תהליך הנדסת התכונות. אנחנו מתחילים עם הצג תאריך ושעה טרנספורמציה של סדרת זמן להוספת תכונות החודש, היום בחודש, היום בשנה, השבוע בשנה והרבעון למערך הנתונים שלנו. מכיוון שאנו מספקים את רכיבי התאריך/שעה כתכונות נפרדות, אנו מאפשרים לאלגוריתמי ML לזהות אותות ודפוסים לשיפור דיוק הניבוי.

  1. בחרו + הוסף שלב.
  2. בחר את סדרת זמן שינוי צורה.
  3. בעד שינוי צורה, לבחור הצג תאריך ושעה.
  4. בעד עמודת קלט, בחר נתונים.
  5. בעד עמודת פלט, להיכנס date (שלב זה הוא אופציונלי).
  6. בעד מצב פלט, בחר סוֹדֵר.
  7. בעד פורמט פלט, בחר עמודות.
  8. לחילוץ תכונות תאריך/שעה, בחר חוֹדֶשׁ, יְוֹם, שבוע בשנה, יום בשנה, ו רובע.
  9. בחרו תצוגה מקדימה.

מערך הנתונים מכיל כעת עמודות חדשות בשם date_month, date_day, date_week_of_year, date_day_of_year, ו date_quarter. המידע שאוחזר מהתכונות החדשות הללו יכול לעזור למדעני נתונים להפיק תובנות נוספות מהנתונים ולגבי הקשר בין תכונות קלט ותכונות פלט.

הצג טרנספורמציה של סדרת זמן של תאריך/שעה

  1. בחרו להוסיף כדי לשמור את הצעד הזה.

מקודד קטגורי

תכונות תאריך/שעה אינן מוגבלות לערכי מספרים שלמים. אתה יכול גם לבחור לשקול תכונות מסוימות של תאריך/שעה שחולצו כמשתנים קטגוריים ולייצג אותם כתכונות מקודדות חמות, כאשר כל עמודה מכילה ערכים בינאריים. החדש שנוצר date_quarter העמודה מכילה ערכים בין 0-3, וניתנת לקידוד חד-חם באמצעות ארבע עמודות בינאריות. בואו ניצור ארבע תכונות בינאריות חדשות, שכל אחת מהן מייצגת את הרבעון המקביל של השנה.

  1. בחרו + הוסף שלב.
  2. בחר את מקודד קטגורי שינוי צורה.
  3. בעד לשנות, בחר קידוד חם אחד.
  4. בעד עמודת קלט, בחר תאריך_רבעון.
  5. בעד סגנון פלט, בחר עמודות.
  6. בחרו תצוגה מקדימה.
  7. בחרו להוסיף כדי להוסיף את השלב.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תכונת השהיה

לאחר מכן, בואו ניצור תכונות פיגור עבור עמודת היעד Volume USD. תכונות השהיה בניתוח סדרות זמן הן ערכים בחותמות זמן קודמות שנחשבות מועילות בהסקת ערכים עתידיים. הם גם עוזרים לזהות אוטוקורלציה (המכונה גם התאמה סדרתית) דפוסים בסדרה השיורית על ידי כימות הקשר של התצפית עם תצפיות בשלבי זמן קודמים. אוטוקורלציה דומה למתאם רגיל אך בין הערכים בסדרה לערכי העבר שלה. הוא מהווה את הבסיס למודלים של חיזוי אוטורגרסיבי בסדרת ARIMA.

עם רנגלר הנתונים תכונת השהיה טרנספורמציה, אתה יכול ליצור בקלות תכונות פיגור בהפרש של n תקופות. בנוסף, לעתים קרובות אנו רוצים ליצור תכונות פיגור מרובות בפיגורים שונים ולתת לדגם להחליט מהן התכונות המשמעותיות ביותר. עבור תרחיש כזה, ה תכונות השהיה טרנספורמציה עוזרת ליצור עמודות פיגור מרובות בגודל חלון מוגדר.

  1. בחרו חזרה לזרימת הנתונים.
  2. בחר את סימן הפלוס שליד צעדים on זרימת נתונים.
  3. בחרו + הוסף שלב.
  4. בחרו סדרת זמן שינוי צורה.
  5. בעד לשנות, בחר תכונות השהיה.
  6. בעד צור תכונות פיגור עבור עמודה זו, בחר נפח דולר.
  7. בעד עמודת חותמת זמן, בחר נתונים.
  8. בעד לְפַגֵר, להיכנס 7.
  9. מכיוון שאנו מעוניינים לצפות עד שבעת ערכי השהיה הקודמים, בואו נבחר כלול את כל חלון השהיה.
  10. כדי ליצור עמודה חדשה עבור כל ערך פיגור, בחר שטחו את הפלט.
  11. בחרו תצוגה מקדימה.

מתווספות שבע עמודות חדשות, עם סיומת ה- lag_number מילת מפתח עבור עמודת היעד Volume USD.

טרנספורמציה של סדרת זמן בתכונת השהיה

  1. בחרו להוסיף כדי להציל את הצעד.

תכונות חלון מתגלגל

אנו יכולים גם לחשב סיכומים סטטיסטיים משמעותיים על פני מגוון ערכים ולכלול אותם כתכונות קלט. הבה נחלץ תכונות נפוצות של סדרות זמן סטטיסטיות.

Data Wrangler מיישמת יכולות חילוץ תכונות של סדרות זמן אוטומטיות באמצעות הקוד הפתוח צפרש חֲבִילָה. עם טרנספורמציה של חילוץ תכונות של סדרת זמן, אתה יכול להפוך את תהליך חילוץ התכונות לאוטומטי. זה מבטל את הזמן והמאמץ שהושקעו אחרת ביישום ידני של ספריות עיבוד אותות. עבור פוסט זה, אנו מחלצים תכונות באמצעות ה תכונות חלון מתגלגל שינוי צורה. שיטה זו מחשבת מאפיינים סטטיסטיים על פני קבוצה של תצפיות המוגדרות על ידי גודל החלון.

  1. בחרו + הוסף שלב.
  2. בחר את סדרת זמן שינוי צורה.
  3. בעד לשנות, בחר תכונות חלון מתגלגל.
  4. בעד צור תכונות חלון מתגלגל עבור עמודה זו, בחר נפח דולר.
  5. בעד עמודת חותמת זמן, בחר נתונים.
  6. בעד גודל חלון, להיכנס 7.

ציון גודל חלון של 7 מחשב תכונות על ידי שילוב הערך בחותמת הזמן הנוכחית וערכים עבור שבע חותמות הזמן הקודמות.

  1. בחר לשטח כדי ליצור עמודה חדשה עבור כל תכונה מחושבת.
  2. בחר את האסטרטגיה שלך בתור תת-קבוצה מינימלית.

אסטרטגיה זו מחלצת שמונה תכונות שימושיות בניתוחים במורד הזרם. אסטרטגיות אחרות כוללות קבוצת משנה יעילה, קבוצת משנה מותאמת אישית, ו כל התכונות. לרשימה מלאה של תכונות זמינות לחילוץ, עיין ב סקירה כללית על תכונות שחולצו.

  1. בחרו תצוגה מקדימה.

אנו יכולים לראות שמונה עמודות חדשות עם גודל חלון מוגדר של 7 בשמם, מצורף למערך הנתונים שלנו.

  1. בחרו להוסיף כדי להציל את הצעד.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייצא את מערך הנתונים

שינינו את מערך הנתונים של סדרת הזמן ומוכנים להשתמש במערך הנתונים שעבר טרנספורמציה כקלט עבור אלגוריתם חיזוי. השלב האחרון הוא לייצא את מערך הנתונים שעבר שינוי לאמזון S3. ב-Data Wrangler, אתה יכול לבחור שלב הייצוא ליצור אוטומטית מחברת Jupyter עם קוד עיבוד אמזון SageMaker לעיבוד ויצוא של מערך הנתונים שעבר טרנספורמציה לדלי S3. עם זאת, מכיוון שמערך הנתונים שלנו מכיל קצת יותר מ-300 רשומות, בואו ננצל את היתרונות של ייצא נתונים אפשרות ב הוסף טרנספורמציה תצוגה כדי לייצא את מערך הנתונים שעבר שינוי ישירות לאמזון S3 מ-Data Wrangler.

  1. בחרו ייצא נתונים.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בעד מיקום S3, בחר דפדפן ובחר את דלי ה-S3 שלך.
  2. בחרו ייצא נתונים.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת, לאחר ששינינו בהצלחה את מערך הנתונים של הביטקוין, אנו יכולים להשתמש תחזית אמזון ליצור תחזיות ביטקוין.

לנקות את

אם סיימת עם מקרה השימוש הזה, נקה את המשאבים שיצרת כדי להימנע מחיובים נוספים. עבור Data Wrangler אתה יכול לכבות את המופע הבסיסי בסיום. מתייחס כבה את Data Wrangler תיעוד לפרטים. לחלופין, אתה יכול להמשיך חלק 2 מסדרה זו כדי להשתמש במערך נתונים זה לצורך חיזוי.

<br> סיכום

פוסט זה הדגים כיצד להשתמש ב-Data Wrangler כדי לפשט ולהאיץ את ניתוח סדרות הזמן באמצעות יכולות סדרות הזמן המובנות שלו. בדקנו כיצד מדעני נתונים יכולים בקלות ובאופן אינטראקטיבי לנקות, לעצב, לאמת ולהפוך נתוני סדרות זמן לפורמט הרצוי, לניתוח משמעותי. בדקנו גם כיצד תוכל להעשיר את ניתוח סדרת הזמן שלך על ידי הוספת קבוצה מקיפה של תכונות סטטיסטיות באמצעות Data Wrangler. למידע נוסף על טרנספורמציות של סדרות זמן ב-Data Wrangler, ראה הפוך נתונים.


על המחבר

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.רופ ביינס הוא אדריכל פתרונות ב-AWS המתמקד ב-AI/ML. הוא נלהב לעזור ללקוחות לחדש ולהשיג את היעדים העסקיים שלהם באמצעות בינה מלאכותית ולמידת מכונה. בזמנו הפנוי, רופ נהנה לקרוא ולטייל.

הכן נתוני סדרות זמן עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ניקיטה איבקין הוא מדען יישומי, Amazon SageMaker Data Wrangler.

בול זמן:

עוד מ למידת מכונות AWS