Preziceți șirurile de întoarcere a punctelor de fotbal și a loviturii de start cu distribuție cu coadă grăsime folosind GluonTS

Republicat de Platon

Urmaritori: 0

Astăzi, NFL își continuă călătoria pentru a crește numărul de statistici furnizate de Platforma de statistici de generație următoare tuturor celor 32 de echipe și suporteri deopotrivă. Cu analize avansate derivate din învățarea automată (ML), NFL creează noi modalități de a cuantifica fotbalul și de a oferi fanilor instrumentele necesare pentru a-și spori cunoștințele despre jocuri în cadrul jocului a fotbalului. Pentru sezonul 2022, NFL și-a propus să utilizeze datele de urmărire a jucătorilor și noi tehnici avansate de analiză pentru a înțelege mai bine echipele speciale.

Scopul proiectului a fost acela de a prezice câți yarzi ar câștiga un jucător care revine la un joc de lovire sau de lovire. Una dintre provocările atunci când se construiesc modele predictive pentru retururile de la puncte și kickoff este disponibilitatea evenimentelor foarte rare - cum ar fi touchdown-urile - care au o importanță semnificativă în dinamica unui joc. O distribuție a datelor cu cozi grase este comună în aplicațiile din lumea reală, unde evenimentele rare au un impact semnificativ asupra performanței generale a modelelor. Utilizarea unei metode robuste pentru a modela cu exactitate distribuția în cazul evenimentelor extreme este crucială pentru o performanță generală mai bună.

În această postare, demonstrăm cum să folosiți distribuția Spliced Binned-Pareto implementată în GluonTS pentru a modela robust astfel de distribuții cu coadă grăsime.

Mai întâi descriem setul de date utilizat. În continuare, prezentăm preprocesarea datelor și alte metode de transformare aplicate setului de date. Apoi explicăm detaliile metodologiei ML și procedurile de formare a modelului. În final, prezentăm rezultatele performanței modelului.

Setul de date

În această postare, am folosit două seturi de date pentru a construi modele separate pentru returnările de la punte și kickoff. Datele de urmărire a jucătorului conțin poziția jucătorului, direcția, accelerația și multe altele (în coordonate x,y). Există aproximativ 3,000 și 4,000 de jocuri din patru sezoane NFL (2018-2021) pentru jocurile de declanșare și, respectiv, kickoff. În plus, în seturile de date există foarte puține atingeri legate de puncte și kickoff - doar 0.23% și, respectiv, 0.8%. Distribuția datelor pentru punt și kickoff sunt diferite. De exemplu, distribuția reală a yardage-ului pentru kickoff și puncte sunt similare, dar deplasate, așa cum se arată în figura următoare.

Repartizarea punctelor și a lovirilor de start

Preprocesarea datelor și ingineria caracteristicilor

În primul rând, datele de urmărire au fost filtrate doar pentru datele legate de puncte și returnări de start. Datele jucătorului au fost folosite pentru a obține caracteristici pentru dezvoltarea modelului:

X – Poziția jucătorului de-a lungul axei lungi a terenului
Y – Poziția jucătorului de-a lungul axei scurte a terenului
S – Viteza in metri/secunda; înlocuit cu Dis*10 pentru a fi mai precis (Dis este distanța din ultimele 0.1 secunde)
dir - Unghiul de mișcare a jucătorului (grade)

Din datele precedente, fiecare joc a fost transformat în 10X11X14 de date cu 10 jucători ofensivi (excluzând purtătorul de minge), 11 apărători și 14 caracteristici derivate:

sX – viteza x a unui jucător
sY – viteza y a unui jucător
s – Viteza unui jucător
aX – x accelerația unui jucător
aY – y accelerația unui jucător
relX – x distanța jucătorului față de purtătorul mingii
se bazează – distanța y a jucătorului față de purtătorul mingii
relSx – viteza x a jucătorului în raport cu purtătorul mingii
relSy – viteza y a jucătorului în raport cu purtătorul mingii
relDist – Distanța euclidiană a jucătorului față de purtătorul mingii
oppX – x distanța jucătorului de atac față de jucătorul de apărare
oppY – y distanța jucătorului de atac față de jucătorul de apărare
oppSx –x viteza jucătorului de atac în raport cu jucătorul de apărare
oppSy – y viteza jucătorului de atac în raport cu jucătorul de apărare

Pentru a mări datele și a ține cont de pozițiile din dreapta și din stânga, valorile pozițiilor X și Y au fost, de asemenea, reflectate pentru a ține cont de pozițiile câmpului din dreapta și din stânga. Preprocesarea datelor și ingineria caracteristicilor au fost adaptate de la câștigătorul concursului NFL Big Data Bowl competiție pe Kaggle.

Metodologia ML și formarea modelelor

Deoarece suntem interesați de toate rezultatele posibile din joc, inclusiv de probabilitatea unui touchdown, nu putem pur și simplu să prezicem mediile de yarzi câștigate ca o problemă de regresie. Trebuie să prezicem distribuția completă a probabilității a tuturor câștigurilor posibile de iarzi, așa că am încadrat problema ca o predicție probabilistică.

O modalitate de a implementa predicții probabilistice este de a atribui șiarzile câștigate la mai multe binuri (cum ar fi mai puțin de 0, de la 0–1, de la 1–2, …, de la 14–15, mai mult de 15) și de a prezice bin ca o clasificare problemă. Dezavantajul acestei abordări este că dorim ca binurile mici să aibă o imagine de înaltă definiție a distribuției, dar binurile mici înseamnă mai puține puncte de date per bin și distribuția noastră, în special cozile, poate fi estimată prost și neregulată.

O altă modalitate de a implementa predicții probabilistice este de a modela rezultatul ca o distribuție continuă de probabilitate cu un număr limitat de parametri (de exemplu, o distribuție Gaussiană sau Gamma) și de a prezice parametrii. Această abordare oferă o definiție foarte înaltă și o imagine obișnuită a distribuției, dar este prea rigidă pentru a se potrivi cu adevărata distribuție a yardurilor câștigate, care este multimodală și cu coadă grea.

Pentru a obține cele mai bune dintre ambele metode, folosim Distribuție Binned-Pareto îmbinată (SBP), care are containere pentru centrul distribuției unde sunt disponibile o mulțime de date și Distribuție Pareto generalizată (GPD) la ambele capete, unde se pot întâmpla evenimente rare, dar importante, cum ar fi un touchdown. GPD-ul are doi parametri: unul pentru scară și unul pentru greutatea cozii, așa cum se vede în graficul următor (sursa: Wikipedia).

Prin îmbinarea GPD cu distribuția binată (a se vedea următorul grafic din stânga) pe ambele părți, obținem următorul SBP din dreapta. Pragurile inferioare și superioare în care se face splicing sunt hiperparametri.

Distribuții bined și SPB

Ca bază, am folosit modelul care ne-a câștigat NFL Big Data Bowl competiție pe Kaggle. Acest model folosește straturi CNN pentru a extrage caracteristici din datele pregătite și prezice rezultatul ca o problemă de clasificare „1 yard per coș”. Pentru modelul nostru, am păstrat straturile de extracție a caracteristicilor din linia de bază și am modificat doar ultimul strat pentru a afișa parametrii SBP în loc de probabilități pentru fiecare bin, așa cum se arată în figura următoare (imagine editată din postare Locul 1 soluție The Zoo).

Arhitectura model

Am folosit distribuția SBP oferită de GluonTS. GluonTS este un pachet Python pentru modelarea probabilistică a seriilor de timp, dar distribuția SBP nu este specifică seriilor de timp și am putut să o reutilizam pentru regresie. Pentru mai multe informații despre cum să utilizați GluonTS SBP, consultați următoarea demonstrație caiet.

Modelele au fost antrenate și validate încrucișat în sezoanele 2018, 2019 și 2020 și testate în sezonul 2021. Pentru a evita scurgerile în timpul validării încrucișate, am grupat toate jocurile din același joc în același fold.

Pentru evaluare, am păstrat metrica utilizată în competiția Kaggle, the scor de probabilitate clasat continuu (CRPS), care poate fi văzută ca o alternativă la log-probabilitatea care este mai robustă la valori aberante. Am folosit și Coeficientul de corelație Pearson si RMSE ca metrici de acuratețe generale și interpretabile. În plus, am analizat probabilitatea unei atingeri și diagramele de probabilitate pentru a evalua calibrarea.

Modelul a fost antrenat cu privire la pierderea CRPS folosind Media ponderii stocastice și oprirea devreme.

Pentru a face față neregularității părții compartimentate a distribuțiilor de ieșire, am folosit două tehnici:

O penalizare de netezime proporțională cu diferența pătrată dintre două casete consecutive
Ansamblu modele instruite în timpul validării încrucișate

Rezultatele performanței modelului

Pentru fiecare set de date, am efectuat o căutare în grilă peste următoarele opțiuni:

Modele probabilistice
- Linia de referință a fost o probabilitate pe yard
- SBP a fost o probabilitate pe yard în centru, SBP generalizat în cozi
Netezirea distribuției
- Fără netezire (penalizare de netezime = 0)
- Penalizare de netezime = 5
- Penalizare de netezime = 10
Procedura de instruire și inferență
- validare încrucișată cu 10 ori și inferență de ansamblu (k10)
- Instruire pe tren și date de validare pentru 10 epoci sau 20 de epoci

Apoi ne-am uitat la valorile pentru primele cinci modele sortate după CRPS (mai mic este mai bine).

Pentru datele de start, modelul SBP are o ușoară performanță în ceea ce privește CRPS, dar, mai important, estimează mai bine probabilitatea de aterizare (probabilitatea adevărată este de 0.80% în setul de testare). Vedem că cele mai bune modele folosesc ansamblu cu 10 pliuri (k10) și nicio penalizare de netezime, așa cum se arată în tabelul următor.

Pregătire	Model	Finete	CRPS	RMSE	CORR %	P(aterizare)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	De bază	0	4.074	9.62	47.585	0.306
k10	De bază	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	De bază	10	4.08	9.621	47.519	0.265

Următorul grafic al frecvențelor observate și al probabilităților prezise indică o calibrare bună a celui mai bun model al nostru, cu un RMSE de 0.27 între cele două distribuții. Observați aparițiile de yardage mare (de exemplu, 100) care apar în coada distribuției empirice adevărate (albastre), ale cărei probabilități sunt mai capturabile de SBP decât metoda de bază.

Kickoff a observat frecvențele și a prezis distribuția probabilității

Pentru datele de punte, linia de bază depășește SBP, probabil pentru că cozile de yardage extreme au mai puține realizări. Prin urmare, este un compromis mai bun să captezi modalitatea între vârfurile 0-10 yarzi; și spre deosebire de datele de start, cel mai bun model folosește o penalizare de netezime. Următorul tabel rezumă constatările noastre.

Pregătire	Model	Finete	CRPS	RMSE	CORR %	P(aterizare)%
k10	De bază	5	3.961	8.313	35.227	0.547
k10	De bază	0	3.972	8.346	34.227	0.579
k10	De bază	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Următorul grafic al frecvențelor observate (în albastru) și al probabilităților prezise pentru cele mai bune două modele de punte indică faptul că modelul nenetenuat (în portocaliu) este puțin mai bine calibrat decât modelul netezit (în verde) și poate fi o alegere mai bună în general.

Puneti probabilitatile adevarate si prezise

Concluzie

În această postare, am arătat cum să construim modele predictive cu distribuție de date cu coadă groasă. Am folosit distribuția Spliced Binned-Pareto, implementată în GluonTS, care poate modela robust astfel de distribuții cu coadă groasă. Am folosit această tehnică pentru a construi modele pentru retururile de la puncte și kickoff. Putem aplica această soluție în cazuri de utilizare similare în care există foarte puține evenimente în date, dar acele evenimente au un impact semnificativ asupra performanței generale a modelelor.

Dacă doriți ajutor pentru accelerarea utilizării ML în produsele și serviciile dvs., vă rugăm să contactați Laboratorul Amazon ML Solutions programul.

Despre Autori

Preziceți șirzile de întoarcere a punctelor de joc și a loviturii de start cu o distribuție cu coadă groasă folosind GluonTS PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Tesfagabir Meharizghi este un Data Scientist la Laboratorul Amazon ML Solutions unde îi ajută pe clienții AWS din diverse industrii, cum ar fi asistența medicală și științele vieții, producție, auto, sport și media, să accelereze utilizarea învățării automate și a serviciilor cloud AWS pentru a-și rezolva provocările de afaceri.

Marc van Oudheusden este Senior Data Scientist cu echipa Amazon ML Solutions Lab la Amazon Web Services. Lucrează cu clienții AWS pentru a rezolva problemele de afaceri cu inteligență artificială și învățare automată. În afara serviciului, îl puteți găsi la plajă, jucându-se cu copiii lui, făcând surfing sau kitesurfing.

Panpan Xu este un senior Applied Scientist și manager cu Amazon ML Solutions Lab la AWS. Ea lucrează la cercetarea și dezvoltarea algoritmilor de învățare automată pentru aplicații cu impact ridicat pentru clienți într-o varietate de verticale industriale pentru a accelera adoptarea AI și a cloud-ului. Interesul ei de cercetare include interpretabilitatea modelului, analiza cauzală, IA umană în buclă și vizualizarea interactivă a datelor.

Preziceți șirzile de întoarcere a punctelor de joc și a loviturii de start cu o distribuție cu coadă groasă folosind GluonTS PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Kyeong Hoon (Jonathan) Jung este inginer de software senior la National Football League. El a fost alături de echipa Next Gen Stats în ultimii șapte ani, ajutând la construirea platformei de la transmiterea în flux a datelor brute, construirea de microservicii pentru procesarea datelor, până la construirea de API-uri care expun datele procesate. El a colaborat cu Amazon Machine Learning Solutions Lab pentru a furniza date curate cu care să lucreze, precum și pentru a oferi cunoștințe de domeniu despre datele în sine. În afara serviciului, îi place să meargă cu bicicleta în Los Angeles și să facă drumeții în Sierras.

Preziceți șirzile de întoarcere a punctelor de joc și a loviturii de start cu o distribuție cu coadă groasă folosind GluonTS PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Michael Chi este director senior de tehnologie, care supraveghează statisticile și ingineria datelor din Next Gen la National Football League. Este licențiat în matematică și informatică de la Universitatea din Illinois din Urbana Champaign. Michael s-a alăturat pentru prima dată la NFL în 2007 și s-a concentrat în primul rând pe tehnologie și platforme pentru statisticile fotbalului. În timpul liber, îi place să petreacă timpul cu familia în aer liber.

Mike Band este senior manager de cercetare și analiză pentru Next Gen Stats la National Football League. De când s-a alăturat echipei în 2018, el a fost responsabil pentru ideea, dezvoltarea și comunicarea statisticilor și perspectivelor cheie derivate din datele de urmărire a jucătorilor pentru fani, partenerii de difuzare a NFL și cele 32 de cluburi deopotrivă. Mike aduce o mulțime de cunoștințe și experiență echipei cu o diplomă de master în analiză de la Universitatea din Chicago, o diplomă de licență în management sportiv de la Universitatea din Florida și experiență atât în departamentul de scouting al Vikingilor din Minnesota, cât și în departamentul de recrutare. din Florida Gator Football.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Timestamp-ul: 2 Februarie 2023

Timestamp-ul: Aprilie 5, 2022

Republicat de Platon

Pregătiți datele la scară în Amazon SageMaker Studio folosind sesiuni interactive AWS Glue fără server

Conducta de creștere a imaginii pentru Amazon Lookout for Vision

Permiteți persoanelor cu deficiențe de vedere să audă documente folosind Amazon Texttract și Amazon Polly

Integrați ServiceNow cu Amazon Lex chatbot pentru procesarea biletelor

Tehnologie AWS Cloud pentru detectarea în timp aproape real a anomaliilor cardiace folosind date de pe dispozitive portabile

Creați date sintetice pentru conductele de viziune computerizată pe AWS

Personalizați containerul de algoritm Amazon SageMaker XGBoost

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont