I dag fortsetter NFL sin reise for å øke antallet statistikker levert av Neste generasjons statistikkplattform til alle 32 lag og fans. Med avanserte analyser hentet fra maskinlæring (ML), skaper NFL nye måter å kvantifisere fotball på, og for å gi fansen verktøyene som trengs for å øke kunnskapen deres om spill i spillet av fotball. For sesongen 2022 hadde NFL som mål å utnytte spillersporingsdata og nye avanserte analyseteknikker for bedre å forstå spesialteam.
Målet med prosjektet var å forutsi hvor mange yards en returspiller ville få på et punt- eller kickoffspill. En av utfordringene når man bygger prediktive modeller for punkt- og kickoff-avkastning, er tilgjengeligheten av svært sjeldne hendelser – for eksempel touchdowns – som har betydelig betydning for dynamikken i et spill. En datadistribusjon med fete haler er vanlig i virkelige applikasjoner, der sjeldne hendelser har betydelig innvirkning på modellenes generelle ytelse. Å bruke en robust metode for å nøyaktig modellere distribusjon over ekstreme hendelser er avgjørende for bedre total ytelse.
I dette innlegget viser vi hvordan du bruker Spliced Binned-Pareto-distribusjon implementert i GluonTS for å robust modellere slike fetthalede distribusjoner.
Vi beskriver først datasettet som brukes. Deretter presenterer vi dataforbehandlingen og andre transformasjonsmetoder brukt på datasettet. Vi forklarer deretter detaljene i ML-metodikken og modellopplæringsprosedyrene. Til slutt presenterer vi resultatene av modellens ytelse.
datasett
I dette innlegget brukte vi to datasett for å bygge separate modeller for punt- og kickoff-retur. Spillerens sporingsdata inneholder spillerens posisjon, retning, akselerasjon og mer (i x,y-koordinater). Det er rundt 3,000 og 4,000 avspillinger fra fire NFL-sesonger (2018–2021) for henholdsvis punt- og kickoff-spill. I tillegg er det svært få punkt- og kickoff-relaterte touchdowns i datasettene – kun henholdsvis 0.23 % og 0.8 %. Datadistribusjonen for punt og kickoff er forskjellig. For eksempel er den sanne yardagefordelingen for kickoff og punts lik, men forskjøvet, som vist i følgende figur.
Dataforbehandling og funksjonsutvikling
For det første ble sporingsdataene filtrert for kun dataene knyttet til punkt og kickoff-retur. Spillerdataene ble brukt til å utlede funksjoner for modellutvikling:
- X – Spillerposisjon langs banens langakse
- Y – Spillerposisjon langs feltets korte akse
- S – Hastighet i yards/sekund; erstattet av Dis*10 for å gjøre den mer nøyaktig (Dis er avstanden de siste 0.1 sekundene)
- dir – Vinkel på spillerens bevegelse (grader)
Fra de foregående dataene ble hvert spill transformert til 10X11X14 data med 10 offensive spillere (unntatt ballbæreren), 11 forsvarere og 14 avledede funksjoner:
- sX – x hastighet til en spiller
- sY – y hastigheten til en spiller
- s – Hastigheten til en spiller
- aX – x akselerasjon av en spiller
- aY – y akselerasjon av en spiller
- relX – x avstand til spiller i forhold til ballholder
- stole på – y avstand til spiller i forhold til ballholder
- relSx – x hastighet til spiller i forhold til ballbærer
- relSy – y spillerens hastighet i forhold til ballbærer
- relDist – Euklidisk avstand til spiller i forhold til ballbærer
- oppX – x avstand til angrepsspiller i forhold til forsvarsspiller
- oppY – y avstand til angrepsspiller i forhold til forsvarsspiller
- oppSx –x hastighet på angrepsspiller i forhold til forsvarsspiller
- oppSy – y hastighet på angrepsspiller i forhold til forsvarsspiller
For å utvide dataene og ta hensyn til høyre og venstre posisjon, ble X- og Y-posisjonsverdiene også speilvendt for å ta hensyn til høyre og venstre feltposisjoner. Dataforbehandlingen og funksjonsteknikken ble tilpasset fra vinneren av NFL Big Data Bowl konkurranse på Kaggle.
ML metodikk og modelltrening
Fordi vi er interessert i alle mulige utfall fra spillet, inkludert sannsynligheten for et touchdown, kan vi ikke bare forutsi gjennomsnittlig yards oppnådd som et regresjonsproblem. Vi må forutsi den fulle sannsynlighetsfordelingen av alle mulige verftsgevinster, så vi utformet problemet som en sannsynlighetsprediksjon.
En måte å implementere probabilistiske spådommer på er å tilordne yards oppnådd til flere søppelkasser (som mindre enn 0, fra 0–1, fra 1–2, …, fra 14–15, mer enn 15) og forutsi søppelkassen som en klassifisering problem. Ulempen med denne tilnærmingen er at vi ønsker at små binger skal ha et høydefinisjonsbilde av fordelingen, men små binger betyr færre datapunkter per boks, og distribusjonen vår, spesielt halene, kan være dårlig estimert og uregelmessig.
En annen måte å implementere sannsynlighetsprediksjoner på er å modellere utdataene som en kontinuerlig sannsynlighetsfordeling med et begrenset antall parametere (for eksempel en Gauss- eller Gamma-fordeling) og forutsi parametrene. Denne tilnærmingen gir en veldig høy definisjon og et regelmessig bilde av fordelingen, men er for rigid til å passe til den sanne fordelingen av oppnådde verft, som er multimodal og tunghale.
For å få det beste ut av begge metodene bruker vi Spleiset Binned-Pareto distribusjon (SBP), som har binger for sentrum av distribusjonen hvor mye data er tilgjengelig, og Generalisert Pareto-distribusjon (GPD) i begge ender, der sjeldne, men viktige hendelser kan skje, som et touchdown. GPD har to parametere: en for skala og en for haletyngde, som vist i følgende graf (kilde: Wikipedia).
Ved å spleise GPD med den interne distribusjonen (se følgende graf til venstre) på begge sider, får vi følgende SBP til høyre. De nedre og øvre tersklene der skjøting gjøres er hyperparametre.
Som utgangspunkt brukte vi modellen som vant vår NFL Big Data Bowl konkurranse på Kaggle. Denne modellen bruker CNN-lag for å trekke ut funksjoner fra de forberedte dataene, og forutsier utfallet som et "1 yard per bin" klassifiseringsproblem. For vår modell beholdt vi funksjonsekstraksjonslagene fra grunnlinjen og modifiserte bare det siste laget for å sende ut SBP-parametere i stedet for sannsynligheter for hver boks, som vist i følgende figur (bilde redigert fra innlegget 1. plass løsning Dyreparken).
Vi brukte SBP-distribusjonen levert av GluonTS. GluonTS er en Python-pakke for probabilistisk tidsseriemodellering, men SBP-distribusjonen er ikke spesifikk for tidsserier, og vi var i stand til å gjenbruke den for regresjon. For mer informasjon om hvordan du bruker GluonTS SBP, se følgende demo bærbare.
Modeller ble trent og kryssvalidert på sesongene 2018, 2019 og 2020 og testet i 2021-sesongen. For å unngå lekkasje under kryssvalidering, grupperte vi alle spill fra det samme spillet i samme fold.
For evaluering beholdt vi beregningen som ble brukt i Kaggle-konkurransen, den kontinuerlig rangert sannsynlighetsscore (CRPS), som kan sees på som et alternativ til logg-sannsynligheten som er mer robust overfor uteliggere. Vi brukte også Pearson korrelasjonskoeffisient og RMSE som generelle og tolkbare nøyaktighetsmålinger. Videre så vi på sannsynligheten for en touchdown og sannsynlighetsplott for å evaluere kalibrering.
Modellen ble trent på CRPS-tapet ved hjelp av Stokastisk vektgjennomsnitt og tidlig stopp.
For å håndtere uregelmessigheten til den innebygde delen av utdatadistribusjonene, brukte vi to teknikker:
- En jevnhetsstraff proporsjonal med kvadratforskjellen mellom to påfølgende søppelkasser
- Ensembling av modeller trent under kryssvalidering
Modellytelsesresultater
For hvert datasett utførte vi et rutenettsøk over følgende alternativer:
- Sannsynlighetsmodeller
- Baseline var én sannsynlighet per verft
- SBP var én sannsynlighet per yard i sentrum, generalisert SBP i halene
- Distribusjonsutjevning
- Ingen utjevning (glatthetsstraff = 0)
- Glatthetsstraff = 5
- Glatthetsstraff = 10
- Opplæring og slutningsprosedyre
- 10 gangers kryssvalidering og ensembleslutning (k10)
- Trening på tog- og valideringsdata for 10 epoker eller 20 epoker
Deretter så vi på beregningene for de fem beste modellene sortert etter CRPS (lavere er bedre).
For kickoff-data overpresterer SBP-modellen litt når det gjelder CRPS, men enda viktigere estimerer den touchdown-sannsynligheten bedre (sann sannsynlighet er 0.80 % i testsettet). Vi ser at de beste modellene bruker 10-folds ensembling (k10) og ingen jevnhetsstraff, som vist i følgende tabell.
Kurs | Modell | glatthet | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Følgende plott av de observerte frekvensene og predikerte sannsynligheter indikerer en god kalibrering av vår beste modell, med en RMSE på 0.27 mellom de to distribusjonene. Legg merke til forekomstene av høy yardage (for eksempel 100) som forekommer i halen av den sanne (blå) empiriske fordelingen, hvis sannsynligheter er mer fangebare av SBP enn grunnlinjemetoden.
For punktdata overgår basislinjen SBP, kanskje fordi halene til ekstrem yardage har færre realiseringer. Derfor er det en bedre avveining å fange modaliteten mellom 0–10 yards topper; og i motsetning til kickoff-data, bruker den beste modellen en jevnhetsstraff. Tabellen nedenfor oppsummerer funnene våre.
Kurs | Modell | glatthet | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Følgende plot av observerte frekvenser (i blått) og predikerte sannsynligheter for de to beste puntmodellene indikerer at den ikke-utjevnede modellen (i oransje) er litt bedre kalibrert enn den utjevnede modellen (i grønt) og kan være et bedre valg totalt sett.
konklusjonen
I dette innlegget viste vi hvordan man bygger prediktive modeller med fetthalet datadistribusjon. Vi brukte Spliced Binned-Pareto-distribusjon, implementert i GluonTS, som robust kan modellere slike fetthalede distribusjoner. Vi brukte denne teknikken til å bygge modeller for punt- og kickoff-retur. Vi kan bruke denne løsningen på lignende brukstilfeller der det er svært få hendelser i dataene, men disse hendelsene har betydelig innvirkning på modellenes generelle ytelse.
Hvis du ønsker hjelp med å akselerere bruken av ML i dine produkter og tjenester, kan du kontakte Amazon ML Solutions Lab program.
Om forfatterne
Tesfagabir Meharizghi er dataforsker ved Amazon ML Solutions Lab der han hjelper AWS-kunder på tvers av ulike bransjer som helsevesen og biovitenskap, produksjon, bilindustri og sport og media, med å akselerere bruken av maskinlæring og AWS-skytjenester for å løse forretningsutfordringene deres.
Marc van Oudheusden er senior dataforsker med Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han jobber med AWS-kunder for å løse forretningsproblemer med kunstig intelligens og maskinlæring. Utenom jobben kan du finne ham på stranden, leke med barna hans, surfe eller kitesurfe.
Panpan Xu er Senior Applied Scientist og leder ved Amazon ML Solutions Lab ved AWS. Hun jobber med forskning og utvikling av Machine Learning-algoritmer for effektfulle kundeapplikasjoner i en rekke industrielle vertikaler for å akselerere deres AI og skyadopsjon. Hennes forskningsinteresse inkluderer modelltolkbarhet, årsaksanalyse, human-in-the-loop AI og interaktiv datavisualisering.
Kyeong Hoon (Jonathan) Jung er senior programvareingeniør ved National Football League. Han har vært med Next Gen Stats-teamet de siste syv årene og hjulpet med å bygge ut plattformen fra å strømme rådata, bygge ut mikrotjenester for å behandle dataene, til å bygge API-er som eksponerer de behandlede dataene. Han har samarbeidet med Amazon Machine Learning Solutions Lab for å gi rene data de kan jobbe med, samt gi domenekunnskap om selve dataene. Utenom jobben liker han å sykle i Los Angeles og gå på fotturer i Sierras.
Michael Chi er seniordirektør for teknologi som fører tilsyn med Next Gen Stats og Data Engineering ved National Football League. Han har en grad i matematikk og informatikk fra University of Illinois i Urbana Champaign. Michael begynte først i NFL i 2007 og har først og fremst fokusert på teknologi og plattformer for fotballstatistikk. På fritiden liker han å tilbringe tid med familien sin utendørs.
Mike Band er seniorleder for forskning og analyse for neste generasjonsstatistikk ved National Football League. Siden han begynte på laget i 2018, har han vært ansvarlig for ideer, utvikling og kommunikasjon av nøkkelstatistikk og innsikt hentet fra spillersporingsdata for både fans, NFL-kringkastingspartnere og de 32 klubbene. Mike bringer et vell av kunnskap og erfaring til teamet med en mastergrad i analyse fra University of Chicago, en bachelorgrad i sportsledelse fra University of Florida, og erfaring fra både speideravdelingen til Minnesota Vikings og rekrutteringsavdelingen fra Florida Gator Football.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- I stand
- Om oss
- akselerere
- akselerer
- Logg inn
- nøyaktighet
- nøyaktig
- nøyaktig
- tvers
- tillegg
- Adopsjon
- avansert
- AI
- algoritmer
- Alle
- alternativ
- Amazon
- Amazon maskinlæring
- Amazon ML Solutions Lab
- Amazon Web Services
- analyse
- analytics
- og
- Angeles
- søknader
- anvendt
- Påfør
- tilnærming
- arkitektur
- rundt
- kunstig
- kunstig intelligens
- Kunstig intelligens og maskinlæring
- automotive
- tilgjengelighet
- tilgjengelig
- gjennomsnittlig
- AWS
- Axis
- ball
- Baseline
- Strand
- fordi
- BEST
- Bedre
- mellom
- Stor
- Store data
- Blå
- Begge sider
- Bringer
- kringkaste
- bygge
- Bygning
- virksomhet
- fangst
- saker
- sentrum
- utfordringer
- Chicago
- Barn
- valg
- klassifisering
- Cloud
- skyadopsjon
- skytjenester
- klubber
- CNN
- samarbeidet
- Felles
- Kommunikasjon
- konkurranse
- datamaskin
- informatikk
- påfølgende
- kontakt
- inneholder
- fortsetter
- kontinuerlig
- motsetning
- Korrelasjon
- Opprette
- avgjørende
- kunde
- Kunder
- dato
- datapunkter
- dataforsker
- datavisualisering
- datasett
- avtale
- Defenders
- Forsvar
- Grad
- demonstrere
- Avdeling
- Avledet
- beskrive
- detaljer
- Utvikling
- forskjell
- forskjellig
- retning
- Regissør
- avstand
- distribusjon
- Distribusjoner
- domene
- ulempen
- under
- dynamikk
- hver enkelt
- Tidlig
- slutter
- ingeniør
- Ingeniørarbeid
- epoker
- spesielt
- anslått
- estimater
- evaluere
- evaluering
- hendelser
- eksempel
- Eksklusiv
- erfaring
- Forklar
- trekke ut
- ekstrem
- familie
- fans
- Fett
- Trekk
- Egenskaper
- Noen få
- felt
- Figur
- Endelig
- Finn
- Først
- passer
- florida
- fokuserte
- etter
- fotball
- fra
- fullt
- Dess
- Gevinst
- inntjening
- spill
- Gen
- general
- få
- gir
- mål
- god
- GPD
- graf
- Grønn
- Grid
- skje
- helsetjenester
- hjelpe
- hjelpe
- hjelper
- Høy
- Hvordan
- Hvordan
- HTTPS
- Illinois
- bilde
- Påvirkning
- iverksette
- implementert
- betydning
- viktig
- in
- inkluderer
- Inkludert
- Øke
- indikerer
- industriell
- bransjer
- informasjon
- innsikt
- i stedet
- Intelligens
- interaktiv
- interesse
- interessert
- IT
- selv
- ble med
- sammenføyning
- reise
- nøkkel
- kunnskap
- lab
- Siste
- lag
- lag
- League
- læring
- Leverage
- Life
- Life Sciences
- Begrenset
- Lang
- så
- den
- Los Angeles
- tap
- Lot
- maskin
- maskinlæring
- gjøre
- ledelse
- leder
- produksjon
- mange
- mestere
- matematikk
- Media
- metode
- metodikk
- metoder
- metrisk
- Metrics
- Michael
- microservices
- ML
- modell
- modeller
- modifisert
- mer
- bevegelse
- nasjonal
- Trenger
- Ny
- neste
- neste generasjon
- NFL
- Antall
- få
- støtende
- ONE
- alternativer
- oransje
- Annen
- Utfallet
- utendørs
- utkonkurrerer
- utenfor
- samlet
- pakke
- parametere
- del
- partnere
- Past
- ytelse
- kanskje
- bilde
- Sted
- plattform
- Plattformer
- plato
- Platon Data Intelligence
- PlatonData
- Spille
- spiller
- spillere
- spiller
- vær så snill
- poeng
- posisjon
- stillinger
- mulig
- Post
- forutsi
- spådd
- prediksjon
- Spådommer
- spår
- forberedt
- presentere
- primært
- Problem
- problemer
- prosedyrer
- prosess
- Bearbeidet
- Produkter
- program
- prosjekt
- gi
- forutsatt
- gi
- Python
- rangert
- SJELDEN
- Raw
- virkelige verden
- rekruttering
- regelmessig
- i slekt
- erstattet
- forskning
- forskning og utvikling
- ansvarlig
- Resultater
- retur
- avkastning
- rigid
- robust
- samme
- Skala
- Vitenskap
- VITENSKAPER
- Forsker
- Søk
- Årstid
- årstider
- sekunder
- senior
- separat
- Serien
- Tjenester
- sett
- syv
- flere
- Kort
- vist
- Tilbehør
- signifikant
- lignende
- ganske enkelt
- siden
- liten
- So
- Software
- Software Engineer
- løsning
- Solutions
- LØSE
- kilde
- spesiell
- spesifikk
- fart
- utgifter
- Sport
- Sports
- squared
- statistikk
- stats
- stoppe
- streaming
- slik
- bord
- lag
- lag
- teknikker
- Teknologi
- vilkår
- test
- De
- deres
- derfor
- tid
- Tidsserier
- til
- også
- verktøy
- topp
- Sporing
- Tog
- trent
- Kurs
- Transformation
- forvandlet
- sant
- forstå
- universitet
- University of Chicago
- bruke
- validering
- Verdier
- variasjon
- ulike
- vertikaler
- Vikings
- visualisering
- måter
- Rikdom
- web
- webtjenester
- vekt
- hvilken
- Wikipedia
- innenfor
- Vant
- Arbeid
- arbeid
- virker
- ville
- X
- år
- Du
- Din
- zephyrnet