כיום, ה-NFL ממשיכה במסע שלה להגדיל את מספר הנתונים הסטטיסטיים שמסופקים על ידי ה-NFL פלטפורמת סטטיסטיקה מהדור הבא לכל 32 הקבוצות והאוהדים כאחד. עם אנליטיקה מתקדמת שנגזרת מלמידת מכונה (ML), ה-NFL יוצרת דרכים חדשות לכמת כדורגל, ולספק לאוהדים את הכלים הדרושים להגדלת הידע שלהם על משחקים בתוך המשחק של כדורגל. לעונת 2022, ה-NFL שאפה למנף נתוני מעקב אחר שחקנים וטכניקות ניתוח מתקדמות חדשות כדי להבין טוב יותר צוותים מיוחדים.
מטרת הפרויקט הייתה לחזות כמה יארדים ירוויח מחזיר במשחק נקודות או בעיטה. אחד האתגרים בעת בניית מודלים חזויים עבור החזרות נקודות ובקיפות הוא הזמינות של אירועים נדירים מאוד - כמו טאצ'דאונים - שיש להם חשיבות משמעותית בדינמיקה של משחק. חלוקת נתונים עם זנבות שומן נפוצה ביישומים בעולם האמיתי, שבהם לאירועים נדירים יש השפעה משמעותית על הביצועים הכוללים של המודלים. שימוש בשיטה חזקה למודל מדויק של התפלגות על פני אירועים קיצוניים הוא חיוני לביצועים כלליים טובים יותר.
בפוסט זה, אנו מדגימים כיצד להשתמש בהפצת Spliced Binned-Pareto המיושמת ב-GluonTS כדי לדגמן בצורה חזקה התפלגות עם זנב שומן כזה.
תחילה אנו מתארים את מערך הנתונים בו נעשה שימוש. לאחר מכן, אנו מציגים את עיבוד הנתונים המקדים ושיטות טרנספורמציה אחרות המיושמות על מערך הנתונים. לאחר מכן נסביר את הפרטים של מתודולוגיית ה-ML ונהלי ההדרכה של המודל. לבסוף, אנו מציגים את תוצאות ביצועי המודל.
מערך נתונים
בפוסט הזה, השתמשנו בשני מערכי נתונים כדי לבנות מודלים נפרדים להחזרות של נקודות ו-Bitoff. נתוני המעקב של הנגן מכילים את מיקום השחקן, כיוון, תאוצה ועוד (בקואורדינטות x,y). יש כ-3,000 ו-4,000 משחקים מארבע עונות NFL (2018–2021) עבור משחקי נקודות ובעיטה, בהתאמה. בנוסף, יש מעט מאוד טאצ'דאונים הקשורים לנקודה ולבעיטות במערך הנתונים - רק 0.23% ו-0.8%, בהתאמה. התפלגות הנתונים עבור נקודות ופתיחה שונות. לדוגמה, התפלגות המיצר האמיתית עבור בעיטה ונקודות דומות אך משתנה, כפי שמוצג באיור הבא.
עיבוד מקדים של נתונים והנדסת תכונות
ראשית, נתוני המעקב סוננו רק עבור הנתונים הקשורים לנקודות נקודות והחזרות בעיטות. נתוני הנגן שימשו כדי להפיק תכונות לפיתוח מודל:
- X - מיקום שחקן לאורך הציר הארוך של המגרש
- Y - מיקום שחקן לאורך הציר הקצר של המגרש
- S – מהירות במטרים/שנייה; הוחלף ב-Dis*10 כדי להפוך אותו למדויק יותר (Dis הוא המרחק ב-0.1 השניות האחרונות)
- דיר - זווית תנועת השחקן (מעלות)
מהנתונים הקודמים, כל משחק הומר ל-10X11X14 של נתונים עם 10 שחקני התקפה (לא כולל מוביל הכדור), 11 מגנים ו-14 תכונות נגזרות:
- sX - x מהירות של שחקן
- sY - מהירות y של שחקן
- s - מהירות של שחקן
- aX – x האצה של שחקן
- aY – האצה של שחקן
- relX - x מרחק של שחקן ביחס למוביל כדור
- לִסְמוֹך - מרחק y של שחקן ביחס למוביל כדור
- relSx - x מהירות של שחקן ביחס למוביל כדור
- relSy - מהירות y של שחקן ביחס למוביל כדור
- relDist - מרחק אוקלידי של שחקן ביחס למוביל כדור
- oppX – x מרחק של שחקן עבירה ביחס לשחקן הגנה
- oppY - מרחק y של שחקן ההתקפה ביחס לשחקן ההגנה
- oppSx -x מהירות שחקן ההתקפה ביחס לשחקן ההגנה
- oppSy – y מהירות שחקן ההתקפה ביחס לשחקן ההגנה
כדי להגדיל את הנתונים ולהביא בחשבון את המיקומים הימניים והשמאליים, ערכי מיקום X ו-Y שוקפו גם כדי לקחת בחשבון את מיקומי השדה הימני והשמאלי. העיבוד המקדים של הנתונים והנדסת התכונות הותאמו מהמנצח ב- קערת ביג דאטה של ה-NFL תחרות על Kaggle.
מתודולוגיית ML והכשרת מודלים
מכיוון שאנחנו מעוניינים בכל התוצאות האפשריות מהמשחק, כולל ההסתברות לטאצ'דאון, אנחנו לא יכולים פשוט לחזות את הממוצע של יארדים שנצברו כבעיית רגרסיה. אנחנו צריכים לחזות את התפלגות ההסתברות המלאה של כל הרווחים האפשריים בחצר, אז ניסחנו את הבעיה כתחזית הסתברותית.
אחת הדרכים ליישם תחזיות הסתברותיות היא להקצות את ה-yards שהושגו למספר פחים (כגון פחות מ-0, מ-0-1, מ-1-2, …, מ-14-15, יותר מ-15) ולחזות את ה-bin כסיווג. בְּעָיָה. החיסרון של גישה זו הוא שאנו רוצים שלפחים קטנים תהיה תמונה בהפרדה גבוהה של ההתפלגות, אבל פחים קטנים פירושם פחות נקודות נתונים לכל פח והתפלגות שלנו, במיוחד הזנבות, עשויה להיות מוערכת בצורה גרועה ולא סדירה.
דרך נוספת ליישם תחזיות הסתברותיות היא לדגמן את הפלט כהתפלגות הסתברות רציפה עם מספר מוגבל של פרמטרים (לדוגמה, התפלגות גאוס או גמא) ולחזות את הפרמטרים. גישה זו נותנת הגדרה גבוהה מאוד ותמונה קבועה של ההתפלגות, אך היא נוקשה מכדי להתאים לחלוקה האמיתית של החצרות שנצברו, שהיא רב-מודאלית וכבדה.
כדי להפיק את המיטב משתי השיטות, אנו משתמשים הפצת Binned-Pareto משולבת (SBP), שיש לו פחים למרכז ההתפלגות שבהם נתונים רבים זמינים, ו הפצת פארטו כללית (GPD) בשני הקצוות, שבהם יכולים לקרות אירועים נדירים אך חשובים, כמו טאצ'דאון. ל-GPD יש שני פרמטרים: אחד עבור קנה מידה ואחד עבור כבדות הזנב, כפי שניתן לראות בגרף הבא (מקור: ויקיפדיה).
על ידי חיבור של ה-GPD עם ההתפלגות המשולבת (ראה הגרף השמאלי הבא) משני הצדדים, נקבל את ה-SBP הבא מימין. הסף התחתון והעליון שבו נעשה השחבור הם היפרפרמטרים.
בתור בסיס, השתמשנו במודל שניצח את שלנו קערת ביג דאטה של ה-NFL תחרות על Kaggle. מודל זה משתמש בשכבות CNN כדי לחלץ תכונות מהנתונים המוכנים, ומנבא את התוצאה כבעיית סיווג "1 יארד לפח". עבור המודל שלנו, שמרנו את שכבות חילוץ התכונות מקו הבסיס ושינינו רק את השכבה האחרונה לפלט פרמטרי SBP במקום הסתברויות עבור כל פח, כפי שמוצג באיור הבא (תמונה ערוכה מהפוסט פתרון מקום 1 גן החיות).
השתמשנו בהפצת SBP שסופקה על ידי GluonTS. GluonTS היא חבילת Python למידול סדרות זמן הסתברותיות, אך התפלגות ה-SBP אינה ספציפית לסדרות זמן, והצלחנו ליישם אותה מחדש עבור רגרסיה. למידע נוסף על אופן השימוש ב-GluonTS SBP, עיין בהדגמה הבאה מחברה.
הדגמים אומנו ועברו אימות צולב בעונות 2018, 2019 ו-2020 ונבדקו בעונת 2021. כדי למנוע דליפה במהלך אימות צולב, קיבצנו את כל ההצגות מאותו משחק לאותו קפל.
לצורך הערכה, שמרנו על המדד המשמש בתחרות Kaggle, ה ציון הסתברות מדורג מתמשך (CRPS), שניתן לראות כאלטרנטיבה לסבירות היומן שהיא חזקה יותר לחריגות. השתמשנו גם ב מקדם מתאם פירסון ו RMSE כמדדי דיוק כלליים וניתנים לפירוש. יתרה מזאת, בדקנו את ההסתברות לטאצ'דאון ועלילות הסתברות כדי להעריך כיול.
המודל הוכשר על אובדן CRPS באמצעות ממוצע משקל סטוכסטי ועצירה מוקדמת.
כדי להתמודד עם חוסר הסדירות של החלק האחורי של התפלגות הפלט, השתמשנו בשתי טכניקות:
- עונש חלקות פרופורציונלי להפרש בריבוע בין שני פחים עוקבים
- הרכבת מודלים שהוכשרו במהלך אימות צולב
תוצאות ביצועי מודל
עבור כל מערך נתונים, ביצענו חיפוש רשת באפשרויות הבאות:
- מודלים הסתברותיים
- קו הבסיס היה הסתברות אחת לכל יארד
- SBP היה הסתברות אחת לכל יארד במרכז, SBP מוכלל בזנבות
- החלקת הפצה
- אין החלקה (עונש חלקות = 0)
- עונש חלקות = 5
- עונש חלקות = 10
- הליך הדרכה והסקת מסקנות
- אימות צולב ב-10 קיפולים והסקת מסקנות (k10)
- הדרכה על נתוני רכבת ותיקוף עבור 10 עידנים או 20 עידנים
לאחר מכן בדקנו את המדדים עבור חמשת הדגמים המובילים ממוינים לפי CRPS (נמוך יותר עדיף).
עבור נתוני פתיחה, מודל ה-SBP מתפקד מעט במונחים של CRPS, אך חשוב מכך הוא מעריך טוב יותר את ההסתברות לטאצ'דאון (ההסתברות האמיתית היא 0.80% במערך הבדיקות). אנו רואים שהדגמים הטובים ביותר משתמשים ב-10 קיפולים (k10) וללא עונש חלקות, כפי שמוצג בטבלה הבאה.
הדרכה | מספר סימוכין | חֲלָקוּת | CRPS | RMSE | CORR % | P(טאצ'down)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
העלילה הבאה של התדרים הנצפים וההסתברויות החזויות מציינת כיול טוב של המודל הטוב ביותר שלנו, עם RMSE של 0.27 בין שתי ההתפלגויות. שימו לב להתרחשויות של yardage גבוה (לדוגמה, 100) המתרחשות בזנב ההתפלגות האמפירית האמיתית (כחול), שההסתברויות שלה ניתנות לתפיסה רבה יותר ב-SBP מאשר בשיטת הבסיס.
עבור נתוני נקודות, קו הבסיס עולה על ה-SBP, אולי בגלל שבזנבות של אורך קיצוני יש פחות מימושים. לכן, עדיף ללכוד את האופציה בין פסגות של 0-10 יארד; ובניגוד לנתוני הבעיטה, הדגם הטוב ביותר משתמש בעונש חלקות. הטבלה הבאה מסכמת את הממצאים שלנו.
הדרכה | מספר סימוכין | חֲלָקוּת | CRPS | RMSE | CORR % | P(טאצ'down)% |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
העלילה הבאה של התדרים הנצפים (בכחול) וההסתברויות החזויות עבור שני דגמי הנקודה הטובים ביותר מצביעה על כך שהמודל הלא מוחלק (בכתום) מכויל מעט טוב יותר מהדגם המוחלק (בירוק) וייתכן שהוא בחירה טובה יותר בסך הכל.
סיכום
בפוסט זה, הראינו כיצד לבנות מודלים חזויים עם הפצת נתונים עם זנב שומן. השתמשנו בהפצה של Spliced Binned-Pareto, המיושמת ב-GluonTS, שיכולה לדגמן בצורה חזקה התפלגות עם זנב שומן כאלה. השתמשנו בטכניקה זו כדי לבנות מודלים עבור החזרות נקודות וביטות. אנחנו יכולים ליישם את הפתרון הזה על מקרי שימוש דומים שבהם יש מעט מאוד אירועים בנתונים, אבל לאירועים האלה יש השפעה משמעותית על הביצועים הכוללים של המודלים.
אם תרצה עזרה בהאצת השימוש ב-ML במוצרים ובשירותים שלך, אנא צור קשר עם מעבדת פתרונות אמזון ML תכנית.
על הכותבים
טספאגביר מהריזגי הוא מדען נתונים במשרד מעבדת פתרונות אמזון ML שם הוא עוזר ללקוחות AWS בתעשיות שונות כגון בריאות ומדעי החיים, ייצור, רכב וספורט ומדיה, להאיץ את השימוש שלהם בלמידת מכונה ובשירותי ענן AWS כדי לפתור את האתגרים העסקיים שלהם.
מארק ואן אודהאוסדן הוא מדען נתונים בכיר בצוות Amazon ML Solutions Lab ב- Amazon Web Services. הוא עובד עם לקוחות AWS כדי לפתור בעיות עסקיות עם בינה מלאכותית ולמידת מכונה. מחוץ לעבודה אולי תמצאו אותו בחוף הים, משחק עם ילדיו, גולש או גולש עפיפונים.
פנפן שו הוא מדען יישומי בכיר ומנהל במעבדת אמזון ML Solutions ב-AWS. היא עובדת על מחקר ופיתוח של אלגוריתמים של Machine Learning עבור יישומי לקוחות בעלי השפעה גבוהה במגוון תחומים תעשייתיים כדי להאיץ את אימוץ הבינה המלאכותית והענן שלהם. עניין המחקר שלה כולל פרשנות של מודלים, ניתוח סיבתי, בינה מלאכותית של אדם בלולאה והדמיית נתונים אינטראקטיבית.
קיונג הון (ג'ונתן) יונג הוא מהנדס תוכנה בכיר בליגת הכדורגל הלאומית. הוא היה בצוות Next Gen Stats בשבע השנים האחרונות ועזר לבנות את הפלטפורמה מהזרמת הנתונים הגולמיים, בניית שירותי מיקרו לעיבוד הנתונים ועד לבניית API's שחושפים את הנתונים המעובדים. הוא שיתף פעולה עם Amazon Machine Learning Solutions Lab באספקת נתונים נקיים שיעבדו איתם, כמו גם במתן ידע בתחום לגבי הנתונים עצמם. מחוץ לעבודה, הוא נהנה לרכוב על אופניים בלוס אנג'לס ולטייל בסיירה.
מייקל צ'י הוא מנהל בכיר לטכנולוגיה המפקחת על סטטיסטיקות והנדסת נתונים מהדור הבא בליגת הכדורגל הלאומית. יש לו תואר במתמטיקה ומדעי המחשב מאוניברסיטת אילינוי באורבנה שמפיין. מייקל הצטרף לראשונה ל-NFL ב-2007 והתמקד בעיקר בטכנולוגיה ובפלטפורמות לסטטיסטיקה של כדורגל. בזמנו הפנוי הוא נהנה לבלות עם משפחתו בחוץ.
מייק בנד הוא מנהל בכיר של מחקר וניתוח עבור סטטיסטיקות מהדור הבא בליגת הכדורגל הלאומית. מאז שהצטרף לקבוצה ב-2018, הוא היה אחראי על רעיונות, פיתוח ותקשורת של נתונים סטטיסטיים ותובנות מפתח שנגזרו מנתוני מעקב אחר שחקנים עבור אוהדים, שותפי שידור NFL ו-32 המועדונים כאחד. מייק מביא שפע של ידע וניסיון לצוות עם תואר שני באנליטיקה מאוניברסיטת שיקגו, תואר ראשון בניהול ספורט מאוניברסיטת פלורידה וניסיון הן במחלקת הסקאוטינג של מינסוטה ויקינגס והן במחלקת הגיוס של פלורידה גאטור פוטבול.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- יכול
- אודות
- להאיץ
- מאיצה
- חֶשְׁבּוֹן
- דיוק
- מדויק
- במדויק
- לרוחב
- תוספת
- אימוץ
- מתקדם
- AI
- אלגוריתמים
- תעשיות
- חלופה
- אמזון בעברית
- למידת מכונת אמזון
- מעבדת פתרונות אמזון ML
- אמזון שירותי אינטרנט
- אנליזה
- ניתוח
- ו
- אנג'לס
- יישומים
- יישומית
- החל
- גישה
- ארכיטקטורה
- סביב
- מלאכותי
- בינה מלאכותית
- בינה מלאכותית ולמידה מכונה
- רכב
- זמינות
- זמין
- מְמוּצָע
- AWS
- צִיר
- כדור
- Baseline
- חוף
- כי
- הטוב ביותר
- מוטב
- בֵּין
- גָדוֹל
- נתונים גדולים
- כָּחוֹל
- שני הצדדים
- מביא
- מִשׁדָר
- לִבנוֹת
- בִּניָן
- עסקים
- ללכוד
- מקרים
- מרכז
- האתגרים
- שיקגו
- ילדים
- בחירה
- מיון
- ענן
- אימוץ ענן
- שירותי ענן
- מועדונים
- CNN
- שיתף פעולה
- Common
- תקשורת
- תחרות
- המחשב
- מדעי מחשב
- רצופים
- צור קשר
- מכיל
- ממשיך
- רציף
- להפך
- מתאם
- יוצרים
- מכריע
- לקוח
- לקוחות
- נתונים
- נקודות מידע
- מדען נתונים
- נתונים להדמיה
- מערכי נתונים
- עסקה
- המגינים
- גופי בטחון
- תואר
- להפגין
- מַחלָקָה
- נגזר
- לתאר
- פרטים
- צעצועי התפתחות
- הבדל
- אחר
- כיוון
- מְנַהֵל
- מרחק
- הפצה
- הפצות
- תחום
- downside
- בְּמַהֲלָך
- דינמיקה
- כל אחד
- מוקדם
- מסתיים
- מהנדס
- הנדסה
- תקופות
- במיוחד
- מוערך
- הערכות
- להעריך
- הערכה
- אירועים
- דוגמה
- לְמַעֵט
- ניסיון
- להסביר
- תמצית
- קיצוני
- משפחה
- מעריצים
- שומן
- מאפיין
- תכונות
- מעטים
- שדה
- תרשים
- בסופו של דבר
- ראשון
- מתאים
- פלורידה
- מרוכז
- הבא
- כדורגל
- החל מ-
- מלא
- יתר על כן
- לְהַשִׂיג
- רווחים
- מִשְׂחָק
- Gen
- כללי
- לקבל
- נותן
- מטרה
- טוב
- GPD
- גרף
- ירוק
- רֶשֶׁת
- לקרות
- בריאות
- לעזור
- עזרה
- עוזר
- גָבוֹהַ
- איך
- איך
- HTTPS
- אילינוי
- תמונה
- פְּגִיעָה
- ליישם
- יושם
- חשיבות
- חשוב
- in
- כולל
- כולל
- להגדיל
- מצביע על
- התעשייה
- תעשיות
- מידע
- תובנות
- במקום
- מוֹדִיעִין
- אינטראקטיבי
- אינטרס
- מעוניין
- IT
- עצמו
- הצטרף
- הצטרפות
- מסע
- מפתח
- ידע
- מעבדה
- אחרון
- שכבה
- שכבות
- ליגה
- למידה
- תנופה
- החיים
- מדעי חיים
- מוגבל
- ארוך
- נראה
- ה
- לוס אנג'לס
- את
- מגרש
- מכונה
- למידת מכונה
- לעשות
- ניהול
- מנהל
- ייצור
- רב
- מאסטר
- מתימטיקה
- מדיה
- שיטה
- מֵתוֹדוֹלוֹגִיָה
- שיטות
- מטרי
- מדדים
- מיכאל
- מיקרו
- ML
- מודל
- מודלים
- שונים
- יותר
- תנועה
- לאומי
- צורך
- חדש
- הבא
- הגנרל הבא
- NFL
- מספר
- להשיג
- מתקפה
- ONE
- אפשרויות
- כָּתוֹם
- אחר
- תוֹצָאָה
- בחוץ
- ביצועים טובים יותר
- בחוץ
- מקיף
- חבילה
- פרמטרים
- חלק
- שותפים
- עבר
- ביצועים
- אוּלַי
- תמונה
- מקום
- פלטפורמה
- פלטפורמות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- לְשַׂחֵק
- שחקן
- שחקנים
- משחק
- אנא
- נקודות
- עמדה
- עמדות
- אפשרי
- הודעה
- לחזות
- חזה
- נבואה
- התחזיות
- תחזית
- מוּכָן
- להציג
- בראש ובראשונה
- בעיה
- בעיות
- נהלים
- תהליך
- מעובד
- מוצרים
- תָכְנִית
- פּרוֹיֶקט
- לספק
- ובלבד
- מתן
- פיתון
- מדורג
- נדיר
- חי
- עולם אמיתי
- גיוס
- רגיל
- קָשׁוּר
- החליף
- מחקר
- מחקר ופיתוח
- אחראי
- תוצאות
- לַחֲזוֹר
- החזרות
- נוקשה
- חָסוֹן
- אותו
- סולם
- מדע
- מדעים
- מַדְעָן
- חיפוש
- עונה
- עונות
- שניות
- לחצני מצוקה לפנסיונרים
- נפרד
- סדרה
- שירותים
- סט
- שבע
- כמה
- קצר
- הראה
- צדדים
- משמעותי
- דומה
- בפשטות
- since
- קטן
- So
- תוכנה
- מהנדס תוכנה
- פִּתָרוֹן
- פתרונות
- לפתור
- מָקוֹר
- מיוחד
- ספציפי
- מְהִירוּת
- הוצאה
- ספורט
- ספורט
- מרובע
- סטטיסטיקה
- סטטיסטיקות
- סְתִימָה
- נהירה
- כזה
- שולחן
- נבחרת
- צוותי
- טכניקות
- טכנולוגיה
- מונחים
- מבחן
- השמיים
- שֶׁלָהֶם
- לכן
- זמן
- סדרת זמן
- ל
- גַם
- כלים
- חלק עליון
- מעקב
- רכבת
- מְאוּמָן
- הדרכה
- טרנספורמציה
- טרנספורמציה
- נָכוֹן
- להבין
- אוניברסיטה
- אוניברסיטת שיקגו
- להשתמש
- אימות
- ערכים
- מגוון
- שונים
- אנכיות
- ויקינגים
- ראיה
- דרכים
- עושר
- אינטרנט
- שירותי אינטרנט
- מִשׁקָל
- אשר
- ויקיפדיה
- בתוך
- נצחנות
- תיק עבודות
- עובד
- עובד
- היה
- X
- שנים
- אתה
- זפירנט