Forutsi fotballsprang og kickoff-returgårder med fetthalet distribusjon ved å bruke GluonTS

Publisert av Platon

Følgere: 0

I dag fortsetter NFL sin reise for å øke antallet statistikker levert av Neste generasjons statistikkplattform til alle 32 lag og fans. Med avanserte analyser hentet fra maskinlæring (ML), skaper NFL nye måter å kvantifisere fotball på, og for å gi fansen verktøyene som trengs for å øke kunnskapen deres om spill i spillet av fotball. For sesongen 2022 hadde NFL som mål å utnytte spillersporingsdata og nye avanserte analyseteknikker for bedre å forstå spesialteam.

Målet med prosjektet var å forutsi hvor mange yards en returspiller ville få på et punt- eller kickoffspill. En av utfordringene når man bygger prediktive modeller for punkt- og kickoff-avkastning, er tilgjengeligheten av svært sjeldne hendelser – for eksempel touchdowns – som har betydelig betydning for dynamikken i et spill. En datadistribusjon med fete haler er vanlig i virkelige applikasjoner, der sjeldne hendelser har betydelig innvirkning på modellenes generelle ytelse. Å bruke en robust metode for å nøyaktig modellere distribusjon over ekstreme hendelser er avgjørende for bedre total ytelse.

I dette innlegget viser vi hvordan du bruker Spliced Binned-Pareto-distribusjon implementert i GluonTS for å robust modellere slike fetthalede distribusjoner.

Vi beskriver først datasettet som brukes. Deretter presenterer vi dataforbehandlingen og andre transformasjonsmetoder brukt på datasettet. Vi forklarer deretter detaljene i ML-metodikken og modellopplæringsprosedyrene. Til slutt presenterer vi resultatene av modellens ytelse.

datasett

I dette innlegget brukte vi to datasett for å bygge separate modeller for punt- og kickoff-retur. Spillerens sporingsdata inneholder spillerens posisjon, retning, akselerasjon og mer (i x,y-koordinater). Det er rundt 3,000 og 4,000 avspillinger fra fire NFL-sesonger (2018–2021) for henholdsvis punt- og kickoff-spill. I tillegg er det svært få punkt- og kickoff-relaterte touchdowns i datasettene – kun henholdsvis 0.23 % og 0.8 %. Datadistribusjonen for punt og kickoff er forskjellig. For eksempel er den sanne yardagefordelingen for kickoff og punts lik, men forskjøvet, som vist i følgende figur.

Fordeling av poeng og kickoff retur yards

Dataforbehandling og funksjonsutvikling

For det første ble sporingsdataene filtrert for kun dataene knyttet til punkt og kickoff-retur. Spillerdataene ble brukt til å utlede funksjoner for modellutvikling:

X – Spillerposisjon langs banens langakse
Y – Spillerposisjon langs feltets korte akse
S – Hastighet i yards/sekund; erstattet av Dis*10 for å gjøre den mer nøyaktig (Dis er avstanden de siste 0.1 sekundene)
dir – Vinkel på spillerens bevegelse (grader)

Fra de foregående dataene ble hvert spill transformert til 10X11X14 data med 10 offensive spillere (unntatt ballbæreren), 11 forsvarere og 14 avledede funksjoner:

sX – x hastighet til en spiller
sY – y hastigheten til en spiller
s – Hastigheten til en spiller
aX – x akselerasjon av en spiller
aY – y akselerasjon av en spiller
relX – x avstand til spiller i forhold til ballholder
stole på – y avstand til spiller i forhold til ballholder
relSx – x hastighet til spiller i forhold til ballbærer
relSy – y spillerens hastighet i forhold til ballbærer
relDist – Euklidisk avstand til spiller i forhold til ballbærer
oppX – x avstand til angrepsspiller i forhold til forsvarsspiller
oppY – y avstand til angrepsspiller i forhold til forsvarsspiller
oppSx –x hastighet på angrepsspiller i forhold til forsvarsspiller
oppSy – y hastighet på angrepsspiller i forhold til forsvarsspiller

For å utvide dataene og ta hensyn til høyre og venstre posisjon, ble X- og Y-posisjonsverdiene også speilvendt for å ta hensyn til høyre og venstre feltposisjoner. Dataforbehandlingen og funksjonsteknikken ble tilpasset fra vinneren av NFL Big Data Bowl konkurranse på Kaggle.

ML metodikk og modelltrening

Fordi vi er interessert i alle mulige utfall fra spillet, inkludert sannsynligheten for et touchdown, kan vi ikke bare forutsi gjennomsnittlig yards oppnådd som et regresjonsproblem. Vi må forutsi den fulle sannsynlighetsfordelingen av alle mulige verftsgevinster, så vi utformet problemet som en sannsynlighetsprediksjon.

En måte å implementere probabilistiske spådommer på er å tilordne yards oppnådd til flere søppelkasser (som mindre enn 0, fra 0–1, fra 1–2, …, fra 14–15, mer enn 15) og forutsi søppelkassen som en klassifisering problem. Ulempen med denne tilnærmingen er at vi ønsker at små binger skal ha et høydefinisjonsbilde av fordelingen, men små binger betyr færre datapunkter per boks, og distribusjonen vår, spesielt halene, kan være dårlig estimert og uregelmessig.

En annen måte å implementere sannsynlighetsprediksjoner på er å modellere utdataene som en kontinuerlig sannsynlighetsfordeling med et begrenset antall parametere (for eksempel en Gauss- eller Gamma-fordeling) og forutsi parametrene. Denne tilnærmingen gir en veldig høy definisjon og et regelmessig bilde av fordelingen, men er for rigid til å passe til den sanne fordelingen av oppnådde verft, som er multimodal og tunghale.

For å få det beste ut av begge metodene bruker vi Spleiset Binned-Pareto distribusjon (SBP), som har binger for sentrum av distribusjonen hvor mye data er tilgjengelig, og Generalisert Pareto-distribusjon (GPD) i begge ender, der sjeldne, men viktige hendelser kan skje, som et touchdown. GPD har to parametere: en for skala og en for haletyngde, som vist i følgende graf (kilde: Wikipedia).

Ved å spleise GPD med den interne distribusjonen (se følgende graf til venstre) på begge sider, får vi følgende SBP til høyre. De nedre og øvre tersklene der skjøting gjøres er hyperparametre.

Binned og SPB distribusjoner

Som utgangspunkt brukte vi modellen som vant vår NFL Big Data Bowl konkurranse på Kaggle. Denne modellen bruker CNN-lag for å trekke ut funksjoner fra de forberedte dataene, og forutsier utfallet som et "1 yard per bin" klassifiseringsproblem. For vår modell beholdt vi funksjonsekstraksjonslagene fra grunnlinjen og modifiserte bare det siste laget for å sende ut SBP-parametere i stedet for sannsynligheter for hver boks, som vist i følgende figur (bilde redigert fra innlegget 1. plass løsning Dyreparken).

Modellarkitektur

Vi brukte SBP-distribusjonen levert av GluonTS. GluonTS er en Python-pakke for probabilistisk tidsseriemodellering, men SBP-distribusjonen er ikke spesifikk for tidsserier, og vi var i stand til å gjenbruke den for regresjon. For mer informasjon om hvordan du bruker GluonTS SBP, se følgende demo bærbare.

Modeller ble trent og kryssvalidert på sesongene 2018, 2019 og 2020 og testet i 2021-sesongen. For å unngå lekkasje under kryssvalidering, grupperte vi alle spill fra det samme spillet i samme fold.

For evaluering beholdt vi beregningen som ble brukt i Kaggle-konkurransen, den kontinuerlig rangert sannsynlighetsscore (CRPS), som kan sees på som et alternativ til logg-sannsynligheten som er mer robust overfor uteliggere. Vi brukte også Pearson korrelasjonskoeffisient og RMSE som generelle og tolkbare nøyaktighetsmålinger. Videre så vi på sannsynligheten for en touchdown og sannsynlighetsplott for å evaluere kalibrering.

Modellen ble trent på CRPS-tapet ved hjelp av Stokastisk vektgjennomsnitt og tidlig stopp.

For å håndtere uregelmessigheten til den innebygde delen av utdatadistribusjonene, brukte vi to teknikker:

En jevnhetsstraff proporsjonal med kvadratforskjellen mellom to påfølgende søppelkasser
Ensembling av modeller trent under kryssvalidering

Modellytelsesresultater

For hvert datasett utførte vi et rutenettsøk over følgende alternativer:

Sannsynlighetsmodeller
- Baseline var én sannsynlighet per verft
- SBP var én sannsynlighet per yard i sentrum, generalisert SBP i halene
Distribusjonsutjevning
- Ingen utjevning (glatthetsstraff = 0)
- Glatthetsstraff = 5
- Glatthetsstraff = 10
Opplæring og slutningsprosedyre
- 10 gangers kryssvalidering og ensembleslutning (k10)
- Trening på tog- og valideringsdata for 10 epoker eller 20 epoker

Deretter så vi på beregningene for de fem beste modellene sortert etter CRPS (lavere er bedre).

For kickoff-data overpresterer SBP-modellen litt når det gjelder CRPS, men enda viktigere estimerer den touchdown-sannsynligheten bedre (sann sannsynlighet er 0.80 % i testsettet). Vi ser at de beste modellene bruker 10-folds ensembling (k10) og ingen jevnhetsstraff, som vist i følgende tabell.

Kurs	Modell	glatthet	CRPS	RMSE	CORR %	P(touchdown)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

Følgende plott av de observerte frekvensene og predikerte sannsynligheter indikerer en god kalibrering av vår beste modell, med en RMSE på 0.27 mellom de to distribusjonene. Legg merke til forekomstene av høy yardage (for eksempel 100) som forekommer i halen av den sanne (blå) empiriske fordelingen, hvis sannsynligheter er mer fangebare av SBP enn grunnlinjemetoden.

Kickoff observerte frekvenser og predikert sannsynlighetsfordeling

For punktdata overgår basislinjen SBP, kanskje fordi halene til ekstrem yardage har færre realiseringer. Derfor er det en bedre avveining å fange modaliteten mellom 0–10 yards topper; og i motsetning til kickoff-data, bruker den beste modellen en jevnhetsstraff. Tabellen nedenfor oppsummerer funnene våre.

Kurs	Modell	glatthet	CRPS	RMSE	CORR %	P(touchdown)%
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Følgende plot av observerte frekvenser (i blått) og predikerte sannsynligheter for de to beste puntmodellene indikerer at den ikke-utjevnede modellen (i oransje) er litt bedre kalibrert enn den utjevnede modellen (i grønt) og kan være et bedre valg totalt sett.

Punkt sanne og forutsagte sannsynligheter

konklusjonen

I dette innlegget viste vi hvordan man bygger prediktive modeller med fetthalet datadistribusjon. Vi brukte Spliced Binned-Pareto-distribusjon, implementert i GluonTS, som robust kan modellere slike fetthalede distribusjoner. Vi brukte denne teknikken til å bygge modeller for punt- og kickoff-retur. Vi kan bruke denne løsningen på lignende brukstilfeller der det er svært få hendelser i dataene, men disse hendelsene har betydelig innvirkning på modellenes generelle ytelse.

Hvis du ønsker hjelp med å akselerere bruken av ML i dine produkter og tjenester, kan du kontakte Amazon ML Solutions Lab program.

Om forfatterne

Forutsi fotball-punkt- og kickoff-returyards med fat-tailed distribusjon ved hjelp av GluonTS PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Tesfagabir Meharizghi er dataforsker ved Amazon ML Solutions Lab der han hjelper AWS-kunder på tvers av ulike bransjer som helsevesen og biovitenskap, produksjon, bilindustri og sport og media, med å akselerere bruken av maskinlæring og AWS-skytjenester for å løse forretningsutfordringene deres.

Marc van Oudheusden er senior dataforsker med Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han jobber med AWS-kunder for å løse forretningsproblemer med kunstig intelligens og maskinlæring. Utenom jobben kan du finne ham på stranden, leke med barna hans, surfe eller kitesurfe.

Panpan Xu er Senior Applied Scientist og leder ved Amazon ML Solutions Lab ved AWS. Hun jobber med forskning og utvikling av Machine Learning-algoritmer for effektfulle kundeapplikasjoner i en rekke industrielle vertikaler for å akselerere deres AI og skyadopsjon. Hennes forskningsinteresse inkluderer modelltolkbarhet, årsaksanalyse, human-in-the-loop AI og interaktiv datavisualisering.

Forutsi fotball-punkt- og kickoff-returyards med fat-tailed distribusjon ved hjelp av GluonTS PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Kyeong Hoon (Jonathan) Jung er senior programvareingeniør ved National Football League. Han har vært med Next Gen Stats-teamet de siste syv årene og hjulpet med å bygge ut plattformen fra å strømme rådata, bygge ut mikrotjenester for å behandle dataene, til å bygge API-er som eksponerer de behandlede dataene. Han har samarbeidet med Amazon Machine Learning Solutions Lab for å gi rene data de kan jobbe med, samt gi domenekunnskap om selve dataene. Utenom jobben liker han å sykle i Los Angeles og gå på fotturer i Sierras.

Forutsi fotball-punkt- og kickoff-returyards med fat-tailed distribusjon ved hjelp av GluonTS PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Michael Chi er seniordirektør for teknologi som fører tilsyn med Next Gen Stats og Data Engineering ved National Football League. Han har en grad i matematikk og informatikk fra University of Illinois i Urbana Champaign. Michael begynte først i NFL i 2007 og har først og fremst fokusert på teknologi og plattformer for fotballstatistikk. På fritiden liker han å tilbringe tid med familien sin utendørs.

Mike Band er seniorleder for forskning og analyse for neste generasjonsstatistikk ved National Football League. Siden han begynte på laget i 2018, har han vært ansvarlig for ideer, utvikling og kommunikasjon av nøkkelstatistikk og innsikt hentet fra spillersporingsdata for både fans, NFL-kringkastingspartnere og de 32 klubbene. Mike bringer et vell av kunnskap og erfaring til teamet med en mastergrad i analyse fra University of Chicago, en bachelorgrad i sportsledelse fra University of Florida, og erfaring fra både speideravdelingen til Minnesota Vikings og rekrutteringsavdelingen fra Florida Gator Football.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Tidstempel: Februar 2, 2023

Tidstempel: April 5, 2022

Publisert av Platon

Forbered data i stor skala i Amazon SageMaker Studio ved å bruke serverløse AWS Glue interaktive økter

Bildeforstørrelsespipeline for Amazon Lookout for Vision

Gjør det mulig for synshemmede å høre dokumenter ved hjelp av Amazon Textract og Amazon Polly

Integrer ServiceNow med Amazon Lex chatbot for billettbehandling

AWS Cloud-teknologi for påvisning av hjerteanomalier i nær sanntid ved bruk av data fra bærbare enheter

Lag syntetiske data for datasynsrørledninger på AWS

Tilpass Amazon SageMaker XGBoost-algoritmebeholderen

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn