חיזוי פוטבול נקודות והחזרה ל-Kickoff Yards עם הפצת זנב שומן באמצעות GluonTS

הועלה מחדש על ידי אפלטון

עוקב: 0

כיום, ה-NFL ממשיכה במסע שלה להגדיל את מספר הנתונים הסטטיסטיים שמסופקים על ידי ה-NFL פלטפורמת סטטיסטיקה מהדור הבא לכל 32 הקבוצות והאוהדים כאחד. עם אנליטיקה מתקדמת שנגזרת מלמידת מכונה (ML), ה-NFL יוצרת דרכים חדשות לכמת כדורגל, ולספק לאוהדים את הכלים הדרושים להגדלת הידע שלהם על משחקים בתוך המשחק של כדורגל. לעונת 2022, ה-NFL שאפה למנף נתוני מעקב אחר שחקנים וטכניקות ניתוח מתקדמות חדשות כדי להבין טוב יותר צוותים מיוחדים.

מטרת הפרויקט הייתה לחזות כמה יארדים ירוויח מחזיר במשחק נקודות או בעיטה. אחד האתגרים בעת בניית מודלים חזויים עבור החזרות נקודות ובקיפות הוא הזמינות של אירועים נדירים מאוד - כמו טאצ'דאונים - שיש להם חשיבות משמעותית בדינמיקה של משחק. חלוקת נתונים עם זנבות שומן נפוצה ביישומים בעולם האמיתי, שבהם לאירועים נדירים יש השפעה משמעותית על הביצועים הכוללים של המודלים. שימוש בשיטה חזקה למודל מדויק של התפלגות על פני אירועים קיצוניים הוא חיוני לביצועים כלליים טובים יותר.

בפוסט זה, אנו מדגימים כיצד להשתמש בהפצת Spliced Binned-Pareto המיושמת ב-GluonTS כדי לדגמן בצורה חזקה התפלגות עם זנב שומן כזה.

תחילה אנו מתארים את מערך הנתונים בו נעשה שימוש. לאחר מכן, אנו מציגים את עיבוד הנתונים המקדים ושיטות טרנספורמציה אחרות המיושמות על מערך הנתונים. לאחר מכן נסביר את הפרטים של מתודולוגיית ה-ML ונהלי ההדרכה של המודל. לבסוף, אנו מציגים את תוצאות ביצועי המודל.

מערך נתונים

בפוסט הזה, השתמשנו בשני מערכי נתונים כדי לבנות מודלים נפרדים להחזרות של נקודות ו-Bitoff. נתוני המעקב של הנגן מכילים את מיקום השחקן, כיוון, תאוצה ועוד (בקואורדינטות x,y). יש כ-3,000 ו-4,000 משחקים מארבע עונות NFL (2018–2021) עבור משחקי נקודות ובעיטה, בהתאמה. בנוסף, יש מעט מאוד טאצ'דאונים הקשורים לנקודה ולבעיטות במערך הנתונים - רק 0.23% ו-0.8%, בהתאמה. התפלגות הנתונים עבור נקודות ופתיחה שונות. לדוגמה, התפלגות המיצר האמיתית עבור בעיטה ונקודות דומות אך משתנה, כפי שמוצג באיור הבא.

חלוקת נקודות והחזרת בעיטות יארדים

עיבוד מקדים של נתונים והנדסת תכונות

ראשית, נתוני המעקב סוננו רק עבור הנתונים הקשורים לנקודות נקודות והחזרות בעיטות. נתוני הנגן שימשו כדי להפיק תכונות לפיתוח מודל:

X - מיקום שחקן לאורך הציר הארוך של המגרש
Y - מיקום שחקן לאורך הציר הקצר של המגרש
S – מהירות במטרים/שנייה; הוחלף ב-Dis*10 כדי להפוך אותו למדויק יותר (Dis הוא המרחק ב-0.1 השניות האחרונות)
דיר - זווית תנועת השחקן (מעלות)

מהנתונים הקודמים, כל משחק הומר ל-10X11X14 של נתונים עם 10 שחקני התקפה (לא כולל מוביל הכדור), 11 מגנים ו-14 תכונות נגזרות:

sX - x מהירות של שחקן
sY - מהירות y של שחקן
s - מהירות של שחקן
aX – x האצה של שחקן
aY – האצה של שחקן
relX - x מרחק של שחקן ביחס למוביל כדור
לִסְמוֹך - מרחק y של שחקן ביחס למוביל כדור
relSx - x מהירות של שחקן ביחס למוביל כדור
relSy - מהירות y של שחקן ביחס למוביל כדור
relDist - מרחק אוקלידי של שחקן ביחס למוביל כדור
oppX – x מרחק של שחקן עבירה ביחס לשחקן הגנה
oppY - מרחק y של שחקן ההתקפה ביחס לשחקן ההגנה
oppSx -x מהירות שחקן ההתקפה ביחס לשחקן ההגנה
oppSy – y מהירות שחקן ההתקפה ביחס לשחקן ההגנה

כדי להגדיל את הנתונים ולהביא בחשבון את המיקומים הימניים והשמאליים, ערכי מיקום X ו-Y שוקפו גם כדי לקחת בחשבון את מיקומי השדה הימני והשמאלי. העיבוד המקדים של הנתונים והנדסת התכונות הותאמו מהמנצח ב- קערת ביג דאטה של ה-NFL תחרות על Kaggle.

מתודולוגיית ML והכשרת מודלים

מכיוון שאנחנו מעוניינים בכל התוצאות האפשריות מהמשחק, כולל ההסתברות לטאצ'דאון, אנחנו לא יכולים פשוט לחזות את הממוצע של יארדים שנצברו כבעיית רגרסיה. אנחנו צריכים לחזות את התפלגות ההסתברות המלאה של כל הרווחים האפשריים בחצר, אז ניסחנו את הבעיה כתחזית הסתברותית.

אחת הדרכים ליישם תחזיות הסתברותיות היא להקצות את ה-yards שהושגו למספר פחים (כגון פחות מ-0, מ-0-1, מ-1-2, …, מ-14-15, יותר מ-15) ולחזות את ה-bin כסיווג. בְּעָיָה. החיסרון של גישה זו הוא שאנו רוצים שלפחים קטנים תהיה תמונה בהפרדה גבוהה של ההתפלגות, אבל פחים קטנים פירושם פחות נקודות נתונים לכל פח והתפלגות שלנו, במיוחד הזנבות, עשויה להיות מוערכת בצורה גרועה ולא סדירה.

דרך נוספת ליישם תחזיות הסתברותיות היא לדגמן את הפלט כהתפלגות הסתברות רציפה עם מספר מוגבל של פרמטרים (לדוגמה, התפלגות גאוס או גמא) ולחזות את הפרמטרים. גישה זו נותנת הגדרה גבוהה מאוד ותמונה קבועה של ההתפלגות, אך היא נוקשה מכדי להתאים לחלוקה האמיתית של החצרות שנצברו, שהיא רב-מודאלית וכבדה.

כדי להפיק את המיטב משתי השיטות, אנו משתמשים הפצת Binned-Pareto משולבת (SBP), שיש לו פחים למרכז ההתפלגות שבהם נתונים רבים זמינים, ו הפצת פארטו כללית (GPD) בשני הקצוות, שבהם יכולים לקרות אירועים נדירים אך חשובים, כמו טאצ'דאון. ל-GPD יש שני פרמטרים: אחד עבור קנה מידה ואחד עבור כבדות הזנב, כפי שניתן לראות בגרף הבא (מקור: ויקיפדיה).

על ידי חיבור של ה-GPD עם ההתפלגות המשולבת (ראה הגרף השמאלי הבא) משני הצדדים, נקבל את ה-SBP הבא מימין. הסף התחתון והעליון שבו נעשה השחבור הם היפרפרמטרים.

הפצות Binned ו-SPB

בתור בסיס, השתמשנו במודל שניצח את שלנו קערת ביג דאטה של ה-NFL תחרות על Kaggle. מודל זה משתמש בשכבות CNN כדי לחלץ תכונות מהנתונים המוכנים, ומנבא את התוצאה כבעיית סיווג "1 יארד לפח". עבור המודל שלנו, שמרנו את שכבות חילוץ התכונות מקו הבסיס ושינינו רק את השכבה האחרונה לפלט פרמטרי SBP במקום הסתברויות עבור כל פח, כפי שמוצג באיור הבא (תמונה ערוכה מהפוסט פתרון מקום 1 גן החיות).

אדריכלות מודל

השתמשנו בהפצת SBP שסופקה על ידי GluonTS. GluonTS היא חבילת Python למידול סדרות זמן הסתברותיות, אך התפלגות ה-SBP אינה ספציפית לסדרות זמן, והצלחנו ליישם אותה מחדש עבור רגרסיה. למידע נוסף על אופן השימוש ב-GluonTS SBP, עיין בהדגמה הבאה מחברה.

הדגמים אומנו ועברו אימות צולב בעונות 2018, 2019 ו-2020 ונבדקו בעונת 2021. כדי למנוע דליפה במהלך אימות צולב, קיבצנו את כל ההצגות מאותו משחק לאותו קפל.

לצורך הערכה, שמרנו על המדד המשמש בתחרות Kaggle, ה ציון הסתברות מדורג מתמשך (CRPS), שניתן לראות כאלטרנטיבה לסבירות היומן שהיא חזקה יותר לחריגות. השתמשנו גם ב מקדם מתאם פירסון ו RMSE כמדדי דיוק כלליים וניתנים לפירוש. יתרה מזאת, בדקנו את ההסתברות לטאצ'דאון ועלילות הסתברות כדי להעריך כיול.

המודל הוכשר על אובדן CRPS באמצעות ממוצע משקל סטוכסטי ועצירה מוקדמת.

כדי להתמודד עם חוסר הסדירות של החלק האחורי של התפלגות הפלט, השתמשנו בשתי טכניקות:

עונש חלקות פרופורציונלי להפרש בריבוע בין שני פחים עוקבים
הרכבת מודלים שהוכשרו במהלך אימות צולב

תוצאות ביצועי מודל

עבור כל מערך נתונים, ביצענו חיפוש רשת באפשרויות הבאות:

מודלים הסתברותיים
- קו הבסיס היה הסתברות אחת לכל יארד
- SBP היה הסתברות אחת לכל יארד במרכז, SBP מוכלל בזנבות
החלקת הפצה
- אין החלקה (עונש חלקות = 0)
- עונש חלקות = 5
- עונש חלקות = 10
הליך הדרכה והסקת מסקנות
- אימות צולב ב-10 קיפולים והסקת מסקנות (k10)
- הדרכה על נתוני רכבת ותיקוף עבור 10 עידנים או 20 עידנים

לאחר מכן בדקנו את המדדים עבור חמשת הדגמים המובילים ממוינים לפי CRPS (נמוך יותר עדיף).

עבור נתוני פתיחה, מודל ה-SBP מתפקד מעט במונחים של CRPS, אך חשוב מכך הוא מעריך טוב יותר את ההסתברות לטאצ'דאון (ההסתברות האמיתית היא 0.80% במערך הבדיקות). אנו רואים שהדגמים הטובים ביותר משתמשים ב-10 קיפולים (k10) וללא עונש חלקות, כפי שמוצג בטבלה הבאה.

הדרכה	מספר סימוכין	חֲלָקוּת	CRPS	RMSE	CORR %	P(טאצ'down)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

העלילה הבאה של התדרים הנצפים וההסתברויות החזויות מציינת כיול טוב של המודל הטוב ביותר שלנו, עם RMSE של 0.27 בין שתי ההתפלגויות. שימו לב להתרחשויות של yardage גבוה (לדוגמה, 100) המתרחשות בזנב ההתפלגות האמפירית האמיתית (כחול), שההסתברויות שלה ניתנות לתפיסה רבה יותר ב-SBP מאשר בשיטת הבסיס.

קיק-off צפה בתדרים וחזו התפלגות הסתברות

עבור נתוני נקודות, קו הבסיס עולה על ה-SBP, אולי בגלל שבזנבות של אורך קיצוני יש פחות מימושים. לכן, עדיף ללכוד את האופציה בין פסגות של 0-10 יארד; ובניגוד לנתוני הבעיטה, הדגם הטוב ביותר משתמש בעונש חלקות. הטבלה הבאה מסכמת את הממצאים שלנו.

הדרכה	מספר סימוכין	חֲלָקוּת	CRPS	RMSE	CORR %	P(טאצ'down)%
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

העלילה הבאה של התדרים הנצפים (בכחול) וההסתברויות החזויות עבור שני דגמי הנקודה הטובים ביותר מצביעה על כך שהמודל הלא מוחלק (בכתום) מכויל מעט טוב יותר מהדגם המוחלק (בירוק) וייתכן שהוא בחירה טובה יותר בסך הכל.

נקודת הסתברויות נכונות וחזוויות

סיכום

בפוסט זה, הראינו כיצד לבנות מודלים חזויים עם הפצת נתונים עם זנב שומן. השתמשנו בהפצה של Spliced Binned-Pareto, המיושמת ב-GluonTS, שיכולה לדגמן בצורה חזקה התפלגות עם זנב שומן כאלה. השתמשנו בטכניקה זו כדי לבנות מודלים עבור החזרות נקודות וביטות. אנחנו יכולים ליישם את הפתרון הזה על מקרי שימוש דומים שבהם יש מעט מאוד אירועים בנתונים, אבל לאירועים האלה יש השפעה משמעותית על הביצועים הכוללים של המודלים.

אם תרצה עזרה בהאצת השימוש ב-ML במוצרים ובשירותים שלך, אנא צור קשר עם מעבדת פתרונות אמזון ML תכנית.

על הכותבים

חזה את יארד החזרה של פוטבול והבעיטה עם חלוקת זנב שמן באמצעות GluonTS PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. טספאגביר מהריזגי הוא מדען נתונים במשרד מעבדת פתרונות אמזון ML שם הוא עוזר ללקוחות AWS בתעשיות שונות כגון בריאות ומדעי החיים, ייצור, רכב וספורט ומדיה, להאיץ את השימוש שלהם בלמידת מכונה ובשירותי ענן AWS כדי לפתור את האתגרים העסקיים שלהם.

מארק ואן אודהאוסדן הוא מדען נתונים בכיר בצוות Amazon ML Solutions Lab ב- Amazon Web Services. הוא עובד עם לקוחות AWS כדי לפתור בעיות עסקיות עם בינה מלאכותית ולמידת מכונה. מחוץ לעבודה אולי תמצאו אותו בחוף הים, משחק עם ילדיו, גולש או גולש עפיפונים.

פנפן שו הוא מדען יישומי בכיר ומנהל במעבדת אמזון ML Solutions ב-AWS. היא עובדת על מחקר ופיתוח של אלגוריתמים של Machine Learning עבור יישומי לקוחות בעלי השפעה גבוהה במגוון תחומים תעשייתיים כדי להאיץ את אימוץ הבינה המלאכותית והענן שלהם. עניין המחקר שלה כולל פרשנות של מודלים, ניתוח סיבתי, בינה מלאכותית של אדם בלולאה והדמיית נתונים אינטראקטיבית.

חזה את יארד החזרה של פוטבול והבעיטה עם חלוקת זנב שמן באמצעות GluonTS PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. קיונג הון (ג'ונתן) יונג הוא מהנדס תוכנה בכיר בליגת הכדורגל הלאומית. הוא היה בצוות Next Gen Stats בשבע השנים האחרונות ועזר לבנות את הפלטפורמה מהזרמת הנתונים הגולמיים, בניית שירותי מיקרו לעיבוד הנתונים ועד לבניית API's שחושפים את הנתונים המעובדים. הוא שיתף פעולה עם Amazon Machine Learning Solutions Lab באספקת נתונים נקיים שיעבדו איתם, כמו גם במתן ידע בתחום לגבי הנתונים עצמם. מחוץ לעבודה, הוא נהנה לרכוב על אופניים בלוס אנג'לס ולטייל בסיירה.

חזה את יארד החזרה של פוטבול והבעיטה עם חלוקת זנב שמן באמצעות GluonTS PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. מייקל צ'י הוא מנהל בכיר לטכנולוגיה המפקחת על סטטיסטיקות והנדסת נתונים מהדור הבא בליגת הכדורגל הלאומית. יש לו תואר במתמטיקה ומדעי המחשב מאוניברסיטת אילינוי באורבנה שמפיין. מייקל הצטרף לראשונה ל-NFL ב-2007 והתמקד בעיקר בטכנולוגיה ובפלטפורמות לסטטיסטיקה של כדורגל. בזמנו הפנוי הוא נהנה לבלות עם משפחתו בחוץ.

מייק בנד הוא מנהל בכיר של מחקר וניתוח עבור סטטיסטיקות מהדור הבא בליגת הכדורגל הלאומית. מאז שהצטרף לקבוצה ב-2018, הוא היה אחראי על רעיונות, פיתוח ותקשורת של נתונים סטטיסטיים ותובנות מפתח שנגזרו מנתוני מעקב אחר שחקנים עבור אוהדים, שותפי שידור NFL ו-32 המועדונים כאחד. מייק מביא שפע של ידע וניסיון לצוות עם תואר שני באנליטיקה מאוניברסיטת שיקגו, תואר ראשון בניהול ספורט מאוניברסיטת פלורידה וניסיון הן במחלקת הסקאוטינג של מינסוטה ויקינגס והן במחלקת הגיוס של פלורידה גאטור פוטבול.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

בול זמן: פברואר 2, 2023

בול זמן: דצמבר 13, 2023

הועלה מחדש על ידי אפלטון

התאם אישית את מיכל האלגוריתם של Amazon SageMaker XGBoost

המלצות כוח וחיפוש באמצעות גרף ידע IMDb - חלק 2

תחילת העבודה עם מחבר Amazon Kendra Box

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן