סדרות זמן הן רצפים של נקודות נתונים המתרחשות בסדר עוקב על פני פרק זמן מסוים. לעתים קרובות אנו מנתחים את נקודות הנתונים הללו כדי לקבל החלטות עסקיות טובות יותר או להשיג יתרונות תחרותיים. דוגמה לכך היא Shimamura Music, שהשתמשה תחזית אמזון ל לשפר את שיעורי המחסור ולהגדיל את היעילות העסקית. דוגמה מצוינת נוספת היא ארנג, שהשתמש ב-Forecast כדי לחזות צרכי תחזוקה.
AWS מספקת שירותים שונים הנותנים מענה לנתוני סדרות זמן שהם קוד נמוך/ללא קוד, שבהם גם מתרגלים למידת מכונה (ML) וגם לא-ML יכולים להשתמש לבניית פתרונות ML. אלה כוללים ספריות ושירותים כמו AutoGluon, אמזון SageMaker Canvas, רנגלר הנתונים של אמזון SageMaker, טייס אוטומטי של אמזון, ו תחזית אמזון.
בפוסט זה, אנו מבקשים להפריד מערך נתונים של סדרת זמן לאשכולות בודדים המפגינים רמה גבוהה יותר של דמיון בין נקודות הנתונים שלו ומפחיתים רעש. המטרה היא לשפר את הדיוק על ידי אימון מודל גלובלי המכיל את תצורת האשכול או בעל מודלים מקומיים ספציפיים לכל אשכול.
אנו חוקרים כיצד לחלץ מאפיינים, הנקראים גם מאפיינים, מנתוני סדרות זמן באמצעות ה ספריית TSFresh-חבילת Python לחישוב מספר רב של מאפיינים של סדרות זמן - ולבצע אשכולות באמצעות אלגוריתם K-Means מיושם ב ספריית sikit-learn.
אנו משתמשים אשכול סדרת הזמן באמצעות TSFresh + KMeans מחברת, אשר זמינה אצלנו GitHub ריפו. אנו ממליצים להפעיל את המחברת הזו סטודיו SageMaker של אמזון, סביבת פיתוח משולבת מבוססת אינטרנט (IDE) עבור ML.
סקירת פתרונות
Clustering היא טכניקת ML ללא פיקוח המקבצת פריטים יחד על סמך מדד מרחק. המרחק האוקלידי משמש לרוב עבור מערכי נתונים לא רציפים. עם זאת, מכיוון שלסדרת זמן מטבעה יש רצף (חותמת זמן), המרחק האוקלידי לא עובד טוב כאשר משתמשים בו ישירות על סדרות זמן מכיוון שהוא אינו משתנה לשינויי הזמן, תוך התעלמות מממד הזמן של הנתונים. להסבר מפורט יותר, עיין ב סיווג וצירוף סדרות זמן עם Python. מדד מרחק טוב יותר שעובד ישירות על סדרות זמן הוא עיוות זמן דינמי (DTW). לקבלת דוגמה לאשכול המבוסס על מדד זה, עיין ב אשכול נתוני סדרות זמן לשימוש עם Amazon Forecast.
בפוסט זה, אנו יוצרים תכונות ממערך הנתונים של סדרת הזמן באמצעות ספריית TSFresh Python לחילוץ נתונים. TSFresh היא ספרייה המחשבת מספר רב של מאפיינים של סדרות זמן, הכוללות בין השאר סטיית התקן, הקוונטיל והאנטרופיית פורייה. זה מאפשר לנו להסיר את ממדיות הזמן של מערך הנתונים וליישם טכניקות נפוצות שעובדות עבור נתונים עם פורמטים שטוחים. בנוסף לTSFresh, אנו משתמשים גם StandardScaler, אשר מתקן תכונות על ידי הסרת הממוצע ושינוי קנה מידה ליחידה, ו ניתוח מרכיב עיקרי (PCA) לביצוע הפחתת מימד. קנה מידה מקטין את המרחק בין נקודות הנתונים, אשר בתורו מקדם יציבות בתהליך אימון המודל, והפחתת הממדיות מאפשרת למודל ללמוד מפחות תכונות תוך שמירה על המגמות והדפוסים העיקריים, ובכך לאפשר אימון יעיל יותר.
טעינת נתונים
עבור דוגמה זו, אנו משתמשים ב- ערכת נתונים של UCI Online Retail II ולבצע שלבי ניקוי והכנה בסיסיים של נתונים כמפורט ב מחברת ניקוי והכנת נתונים.
חילוץ תכונה עם TSFresh
בואו נתחיל בשימוש ב-TSFresh כדי לחלץ תכונות ממערך הנתונים של סדרת הזמן שלנו:
שימו לב שהנתונים שלנו הומרו מסדרת זמן לטבלה המשווה StockCode
ערכים לעומת Feature values
.
לאחר מכן, נשאיר את כל התכונות עם n/a
ערכים על ידי שימוש ב- dropna
שיטה:
לאחר מכן אנו משנים את התכונות באמצעות StandardScaler
. הערכים בתכונות שחולצו מורכבים מערכים שליליים וחיוביים כאחד. לכן, אנו משתמשים StandardScaler
במקום MinMaxScaler:
אנו משתמשים ב-PCA כדי לבצע הפחתת מימד:
ואנחנו קובעים את המספר האופטימלי של רכיבים עבור PCA:
יחס השונות המוסבר הוא אחוז השונות המיוחס לכל אחד מהרכיבים שנבחרו. בדרך כלל, אתה קובע את מספר הרכיבים שיש לכלול במודל שלך על ידי הוספה מצטברת של יחס השונות המוסבר של כל רכיב עד שתגיע ל-0.8-0.9 כדי למנוע התאמת יתר. הערך האופטימלי מתרחש בדרך כלל במרפק.
כפי שמוצג בתרשים הבא, ערך המרפק הוא בערך 100. לכן, אנו משתמשים ב-100 כמספר הרכיבים עבור PCA.
מקבץ עם K-Means
כעת בוא נשתמש ב-K-Means עם מדד המרחק האוקלידי עבור אשכול. בקטע הקוד הבא, אנו קובעים את המספר האופטימלי של אשכולות. הוספת אשכולות נוספים מקטינה את ערך האינרציה, אך היא גם מקטינה את המידע הכלול בכל אשכול. בנוסף, יותר אשכולות פירושם יותר מודלים מקומיים לתחזוקה. לכן, אנו רוצים לקבל גודל אשכול קטן עם ערך אינרציה נמוך יחסית. היוריסטית המרפק עובדת היטב למציאת המספר האופטימלי של אשכולות.
התרשים הבא מדגים את הממצאים שלנו.
בהתבסס על תרשים זה, החלטנו להשתמש בשני אשכולות עבור K-Means. קיבלנו החלטה זו מכיוון שסכום הריבועים בתוך אשכול (WCSS) יורד בקצב הגבוה ביותר בין אשכול אחד לשני. חשוב לאזן בין קלות תחזוקה לבין ביצועים ומורכבות של הדגם, מכיוון שלמרות ש-WCSS ממשיך לרדת עם יותר אשכולות, אשכולות נוספים מגבירים את הסיכון להתאמת יתר. יתר על כן, שינויים קלים במערך הנתונים יכולים להפחית באופן בלתי צפוי את הדיוק.
חשוב לציין ששתי שיטות התקבצות, K-Means עם מרחק אוקלידיאני (שנדונה בפוסט זה) וגם אלגוריתם K-means עם DTW, יש את החוזקות והחולשות שלהם. הגישה הטובה ביותר תלויה באופי הנתונים שלך ובשיטות החיזוי שבהן אתה משתמש. לכן, אנו ממליצים בחום להתנסות בשתי הגישות ולהשוות את הביצועים שלהן כדי לקבל הבנה הוליסטית יותר של הנתונים שלך.
סיכום
בפוסט זה, דנו בטכניקות החזקות של מיצוי תכונות ואשכול עבור נתוני סדרות זמן. באופן ספציפי, הראינו כיצד להשתמש ב-TSFresh, ספריית Python פופולרית לחילוץ תכונות, כדי לעבד מראש את נתוני סדרות הזמן שלך ולהשיג תכונות משמעותיות.
לאחר השלמת שלב האשכולות, תוכל לאמן מספר מודלים של תחזית עבור כל אשכול, או להשתמש בתצורת האשכול כתכונה. עיין ב Amazon Forecast מדריך למפתחים למידע אודות בליעת נתונים, אימון מנבא, ו הפקת תחזיות. אם יש לך מטא נתונים של פריטים ונתוני סדרות זמן קשורים, תוכל לכלול אותם גם כמערכי נתונים של קלט להדרכה ב-Forecast. למידע נוסף, עיין ב התחל את המסע המוצלח שלך עם חיזוי סדרות זמן עם Amazon Forecast.
הפניות
על הכותבים
אלכסנדר פטרושב הוא אדריכל פתרונות AI/ML ב-AWS, שבסיסו בלוקסמבורג. הוא נלהב מהענן ולמידת מכונה, והדרך שבה הם יכולים לשנות את העולם. מחוץ לעבודה, הוא נהנה לטייל, ספורט ולבלות עם משפחתו.
צ'ונג אן לים הוא אדריכל פתרונות ב-AWS. הוא תמיד בוחן דרכים לעזור ללקוחות לחדש ולשפר את זרימות העבודה שלהם. בזמנו הפנוי, הוא אוהב לצפות באנימה ולהאזין למוזיקה.
אגור מיאסניקוב הוא אדריכל פתרונות ב-AWS שבסיסו בגרמניה. הוא נלהב מהטרנספורמציה הדיגיטלית של חיינו, העסקים והעולם עצמו, כמו גם מהתפקיד של בינה מלאכותית בטרנספורמציה זו. מחוץ לעבודה, הוא נהנה לקרוא ספרי הרפתקאות, לטייל ולבלות עם משפחתו.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/boost-your-forecast-accuracy-with-time-series-clustering/
- :הוא
- 1
- 10
- 100
- 7
- 8
- 9
- a
- אודות
- דיוק
- תוספת
- נוסף
- בנוסף
- יתרונות
- הַרפַּתקָה
- AI / ML
- אַלגוֹרִיתְם
- תעשיות
- מאפשר
- למרות
- תמיד
- אמזון בעברית
- בין
- לנתח
- ו
- אנימה
- אחר
- החל
- גישה
- גישות
- בערך
- ARE
- מלאכותי
- בינה מלאכותית
- AS
- At
- זמין
- AWS
- איזון
- מבוסס
- בסיסי
- כי
- הטוב ביותר
- מוטב
- בֵּין
- ספרים
- לְהַגבִּיר
- בִּניָן
- עסקים
- עסקים
- by
- מחשב
- נקרא
- CAN
- שינוי
- מאפיינים
- תרשים
- מיון
- ניקוי
- ענן
- אשכול
- קיבוץ
- קוד
- Common
- בדרך כלל
- השוואה
- תחרותי
- להשלים
- מורכבות
- רְכִיב
- רכיבים
- מחשוב
- תְצוּרָה
- מכיל
- ממשיך
- הומר
- יכול
- לקוחות
- נתונים
- נקודות מידע
- מערכי נתונים
- החליט
- החלטה
- החלטות
- להקטין
- תואר
- תלוי
- מְפוֹרָט
- לקבוע
- מפתח
- צעצועי התפתחות
- סטייה
- דיגיטלי
- טרנספורמציה דיגיטלית
- מֵמַד
- ישירות
- נָדוֹן
- מרחק
- לא
- ירידה
- דינמי
- כל אחד
- יעיל
- או
- מה שמאפשר
- סביבה
- דוגמה
- תערוכה
- מוסבר
- הסבר
- לחקור
- היכרות
- תמצית
- משפחה
- מאפיין
- תכונות
- מציאת
- הבא
- בעד
- תַחֲזִית
- חופשי
- החל מ-
- יתר על כן
- לְהַשִׂיג
- ליצור
- גרמניה
- גלוֹבָּלִי
- גלון
- גדול
- קבוצה
- יש
- לעזור
- גבוה יותר
- הגבוה ביותר
- מאוד
- הוליסטית
- איך
- איך
- אולם
- HTML
- http
- HTTPS
- i
- יושם
- לייבא
- חשוב
- לשפר
- in
- לכלול
- כולל
- להגדיל
- בנפרד
- אינרציה
- מידע
- לחדש
- קלט
- במקום
- משולב
- מוֹדִיעִין
- IT
- פריטים
- שֶׁלָה
- עצמו
- מסע
- גָדוֹל
- לִלמוֹד
- למידה
- ספריות
- סִפְרִיָה
- כמו
- האזנה
- חי
- מקומי
- נמוך
- לוקסמבורג
- מכונה
- למידת מכונה
- עשוי
- לתחזק
- תחזוקה
- גדול
- לעשות
- משמעותי
- אומר
- מידע נוסף
- שיטה
- שיטות
- מטרי
- ML
- מודל
- מודלים
- יותר
- יותר יעיל
- רוב
- מספר
- כלי נגינה
- טבע
- שלילי
- רעש
- מחברה
- מספר
- להשיג
- of
- on
- ONE
- באינטרנט
- אופטימלי
- להזמין
- אחרים
- בחוץ
- חבילה
- לוהט
- דפוסי
- אחוזים
- לְבַצֵעַ
- ביצועים
- תקופה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודות
- פופולרי
- חיובי
- הודעה
- חזק
- תהליך
- מקדם
- מספק
- מטרה
- פיתון
- ציון
- תעריפים
- יחס
- לְהַגִיעַ
- קריאה
- להמליץ
- להפחית
- מפחית
- קָשׁוּר
- יחסית
- להסיר
- הסרת
- קמעוני
- שמירה
- הסיכון
- תפקיד
- ריצה
- בעל חכמים
- סולם
- דרוג
- לחפש
- נבחר
- נפרד
- רצף
- סדרה
- שירותים
- משמרות
- מחסור
- הראה
- מידה
- קטן
- פתרונות
- כמה
- מומחה
- ספציפי
- במיוחד
- הוצאה
- ספורט
- ריבועים
- יציבות
- תֶקֶן
- התחלה
- שלב
- צעדים
- חוזק
- מוצלח
- שולחן
- טכניקות
- זֶה
- השמיים
- המידע
- העולם
- שֶׁלָהֶם
- בכך
- לכן
- אלה
- זמן
- סדרת זמן
- חותם
- ל
- יַחַד
- רכבת
- הדרכה
- טרנספורמציה
- מגמות
- תור
- בדרך כלל
- הבנה
- יחידה
- us
- להשתמש
- בְּדֶרֶך כְּלַל
- ניצול
- ערך
- ערכים
- שונים
- vs
- צופה
- דֶרֶך..
- דרכים
- המבוסס על האינטרנט
- טוֹב
- אשר
- בזמן
- מי
- עם
- תיק עבודות
- זרימות עבודה
- עובד
- עוֹלָם
- אתה
- זפירנט