I dag fortsætter NFL deres rejse for at øge antallet af statistikker leveret af Næste generations statistikplatform til alle 32 hold og fans. Med avanceret analyse afledt af machine learning (ML) skaber NFL nye måder at kvantificere fodbold på og give fans de nødvendige værktøjer til at øge deres viden om spil i spillet af fodbold. For sæsonen 2022 sigtede NFL på at udnytte spillersporingsdata og nye avancerede analyseteknikker for bedre at forstå specielle teams.
Målet med projektet var at forudsige, hvor mange yards en returnerer ville vinde på et punt- eller kickoffspil. En af udfordringerne, når man bygger prædiktive modeller for point- og kickoff-afkast, er tilgængeligheden af meget sjældne hændelser - såsom touchdowns - der har væsentlig betydning for dynamikken i et spil. En datafordeling med fede haler er almindelig i applikationer fra den virkelige verden, hvor sjældne hændelser har væsentlig indflydelse på modellernes overordnede ydeevne. Brug af en robust metode til nøjagtigt at modellere distribution over ekstreme hændelser er afgørende for bedre overordnet ydeevne.
I dette indlæg demonstrerer vi, hvordan man bruger Spliced Binned-Pareto distribution implementeret i GluonTS til robust modellering af sådanne fedthalede distributioner.
Vi beskriver først det anvendte datasæt. Dernæst præsenterer vi dataforbehandlingen og andre transformationsmetoder anvendt på datasættet. Vi forklarer derefter detaljerne i ML-metoden og modeltræningsprocedurer. Til sidst præsenterer vi modellens præstationsresultater.
datasæt
I dette indlæg brugte vi to datasæt til at bygge separate modeller for punt- og kickoff-afkast. Spillerens sporingsdata indeholder spillerens position, retning, acceleration og mere (i x,y koordinater). Der er omkring 3,000 og 4,000 afspilninger fra fire NFL-sæsoner (2018-2021) for henholdsvis punt- og kickoff-spil. Derudover er der meget få punt- og kickoff-relaterede touchdowns i datasættene – kun henholdsvis 0.23 % og 0.8 %. Datafordelingen for punt og kickoff er anderledes. For eksempel er den sande yardagefordeling for kickoff og punts ens, men forskudt, som vist i den følgende figur.
Dataforbehandling og feature engineering
Først blev sporingsdataene filtreret for kun de data, der var relateret til point og kickoff-afkast. Spillerdataene blev brugt til at udlede funktioner til modeludvikling:
- X – Spillerposition langs feltets lange akse
- Y – Spillerposition langs feltets korte akse
- S – Hastighed i yards/sekund; erstattet af Dis*10 for at gøre det mere nøjagtigt (Dis er afstanden inden for de seneste 0.1 sekunder)
- Dir – Vinkel på spillerens bevægelse (grader)
Fra de foregående data blev hvert spil transformeret til 10X11X14 data med 10 offensive spillere (eksklusive boldholderen), 11 forsvarsspillere og 14 afledte funktioner:
- sX – x hastighed af en spiller
- sY – y hastighed af en spiller
- s – En spillers hastighed
- aX – x acceleration af en spiller
- aY – y acceleration af en spiller
- relX – x spillerens afstand i forhold til boldholderen
- stole på – y spillerens afstand i forhold til boldholderen
- relSx – x spillerens hastighed i forhold til boldholderen
- relSy – y spillerens hastighed i forhold til boldholder
- relDist – Euklidisk afstand af spiller i forhold til boldholder
- oppX – x afstand fra angrebsspiller i forhold til forsvarsspiller
- oppY – y afstand fra angrebsspiller i forhold til forsvarsspiller
- oppSx -x angrebsspillerens hastighed i forhold til forsvarsspilleren
- oppSy – y angrebsspillerens hastighed i forhold til forsvarsspilleren
For at øge dataene og tage højde for højre og venstre positioner blev X- og Y-positionsværdierne også spejlet for at tage højde for højre og venstre feltpositioner. Dataforbehandlingen og feature engineering blev tilpasset fra vinderen af NFL Big Data Bowl konkurrence på Kaggle.
ML metodik og modeltræning
Fordi vi er interesserede i alle mulige udfald fra spillet, inklusive sandsynligheden for et touchdown, kan vi ikke blot forudsige de gennemsnitlige yards opnået som et regressionsproblem. Vi er nødt til at forudsige den fulde sandsynlighedsfordeling af alle mulige værftsgevinster, så vi indrammede problemet som en sandsynlighedsforudsigelse.
En måde at implementere probabilistiske forudsigelser på er at tildele de opnåede yards til flere bins (såsom mindre end 0, fra 0–1, fra 1–2, …, fra 14–15, mere end 15) og forudsige bin som en klassifikation problem. Ulempen ved denne tilgang er, at vi ønsker, at små bins skal have et high definition-billede af fordelingen, men små bins betyder færre datapunkter pr. bin, og vores distribution, især halerne, kan være dårligt estimeret og uregelmæssig.
En anden måde at implementere probabilistiske forudsigelser på er at modellere output som en kontinuerlig sandsynlighedsfordeling med et begrænset antal parametre (for eksempel en Gauss- eller Gamma-fordeling) og forudsige parametrene. Denne tilgang giver en meget høj definition og et regelmæssigt billede af fordelingen, men er for stiv til at passe til den sande fordeling af opnåede værfter, som er multimodal og tunge hale.
For at få det bedste ud af begge metoder, bruger vi Splejset Binned-Pareto distribution (SBP), som har bins til midten af distributionen, hvor der er meget data til rådighed, og Generaliseret Pareto-fordeling (GPD) i begge ender, hvor sjældne, men vigtige begivenheder kan ske, som et touchdown. GPD har to parametre: en for skala og en for haletyngde, som det ses i følgende graf (kilde: Wikipedia).
Ved at splejse GPD'en med den indlagte fordeling (se følgende graf til venstre) på begge sider, opnår vi følgende SBP til højre. De nedre og øvre tærskler, hvor splejsning udføres, er hyperparametre.
Som udgangspunkt brugte vi den model, der vandt vores NFL Big Data Bowl konkurrence på Kaggle. Denne model bruger CNN-lag til at udtrække funktioner fra de forberedte data og forudsiger resultatet som et "1 yard per bin"-klassificeringsproblem. For vores model beholdt vi funktionsekstraktionslagene fra basislinjen og modificerede kun det sidste lag for at udlæse SBP-parametre i stedet for sandsynligheder for hver bin, som vist i den følgende figur (billede redigeret fra posten 1. plads løsning The Zoo).
Vi brugte SBP-distributionen leveret af GluonTS. GluonTS er en Python-pakke til probabilistisk tidsseriemodellering, men SBP-fordelingen er ikke specifik for tidsserier, og vi var i stand til at genbruge den til regression. For mere information om, hvordan du bruger GluonTS SBP, se følgende demo notesbog.
Modeller blev trænet og krydsvalideret på sæsonerne 2018, 2019 og 2020 og testet på sæsonen 2021. For at undgå lækage under krydsvalidering grupperede vi alle spil fra det samme spil i den samme fold.
Til evaluering beholdt vi den metrik, der blev brugt i Kaggle-konkurrencen, den kontinuerlig rangeret sandsynlighedsscore (CRPS), hvilket kan ses som et alternativ til log-sandsynligheden, der er mere robust over for outliers. Vi brugte også Pearson korrelationskoefficient og RMSE som generelle og fortolkbare nøjagtighedsmålinger. Desuden så vi på sandsynligheden for et touchdown og sandsynlighedsplot for at evaluere kalibrering.
Modellen blev trænet på CRPS-tabet vha Stokastisk vægtgennemsnit og tidlig stop.
For at håndtere uregelmæssigheden i den indskrevne del af outputdistributionerne brugte vi to teknikker:
- En glathedsstraf proportional med den kvadrerede forskel mellem to på hinanden følgende beholdere
- Ensembling af modeller trænet under krydsvalidering
Model præstationsresultater
For hvert datasæt udførte vi en gittersøgning over følgende muligheder:
- Probabilistiske modeller
- Baseline var én sandsynlighed pr. yard
- SBP var én sandsynlighed pr. yard i midten, generaliseret SBP i halerne
- Fordelingsudjævning
- Ingen udjævning (glathedsstraf = 0)
- Glathedsstraf = 5
- Glathedsstraf = 10
- Trænings- og slutningsprocedure
- 10 gange krydsvalidering og ensembleslutning (k10)
- Træning i tog- og valideringsdata for 10 epoker eller 20 epoker
Derefter kiggede vi på metrics for de fem bedste modeller sorteret efter CRPS (lavere er bedre).
For kickoff-data overpræsterer SBP-modellen lidt med hensyn til CRPS, men endnu vigtigere estimerer den touchdown-sandsynligheden bedre (sand sandsynlighed er 0.80 % i testsættet). Vi ser, at de bedste modeller bruger 10-fold ensembling (k10) og ingen glathedsstraf, som vist i følgende tabel.
Kurser | Model | glathed | CRPS | RMSE | CORR % | P(touchdown) % |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Følgende plot af de observerede frekvenser og forudsagte sandsynligheder indikerer en god kalibrering af vores bedste model, med en RMSE på 0.27 mellem de to fordelinger. Bemærk forekomsterne af høj yardage (f.eks. 100), der forekommer i halen af den sande (blå) empiriske fordeling, hvis sandsynligheder er mere fangelige af SBP end basislinjemetoden.
For punktdata overgår basislinjen SBP, måske fordi hale af ekstrem yardage har færre erkendelser. Derfor er det en bedre afvejning at fange modaliteten mellem 0-10 yards toppe; og i modsætning til kickoff-data bruger den bedste model en glathedsstraf. Følgende tabel opsummerer vores resultater.
Kurser | Model | glathed | CRPS | RMSE | CORR % | P(touchdown) % |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Følgende plot af observerede frekvenser (i blåt) og forudsagte sandsynligheder for de to bedste puntmodeller indikerer, at den ikke-udjævnede model (i orange) er lidt bedre kalibreret end den udjævnede model (i grøn) og kan være et bedre valg generelt.
Konklusion
I dette indlæg viste vi, hvordan man opbygger prædiktive modeller med fedthalet datadistribution. Vi brugte Spliced Binned-Pareto distribution, implementeret i GluonTS, som robust kan modellere sådanne fedthalede distributioner. Vi brugte denne teknik til at bygge modeller for punt- og kickoff-afkast. Vi kan anvende denne løsning på lignende use cases, hvor der er meget få hændelser i dataene, men disse hændelser har betydelig indflydelse på modellernes overordnede ydeevne.
Hvis du gerne vil have hjælp til at fremskynde brugen af ML i dine produkter og tjenester, så kontakt venligst Amazon ML Solutions Lab program.
Om forfatterne
Tesfagabir Meharizghi er Data Scientist ved Amazon ML Solutions Lab hvor han hjælper AWS-kunder på tværs af forskellige brancher såsom sundhedspleje og biovidenskab, fremstilling, bilindustri og sport og medier, med at accelerere deres brug af maskinlæring og AWS cloud-tjenester for at løse deres forretningsmæssige udfordringer.
Marc van Oudheusden er Senior Data Scientist hos Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han arbejder med AWS-kunder for at løse forretningsproblemer med kunstig intelligens og maskinlæring. Uden for arbejdet kan du finde ham på stranden, lege med sine børn, surfe eller kitesurfe.
Panpan Xu er Senior Applied Scientist og Manager hos Amazon ML Solutions Lab hos AWS. Hun arbejder på forskning og udvikling af Machine Learning-algoritmer til højtydende kundeapplikationer i en række industrielle vertikaler for at accelerere deres AI og cloud-adoption. Hendes forskningsinteresse omfatter modelfortolkning, kausal analyse, human-in-the-loop AI og interaktiv datavisualisering.
Kyeong Hoon (Jonathan) Jung er senior softwareingeniør i National Football League. Han har været med Next Gen Stats-teamet i de sidste syv år og hjulpet med at opbygge platformen fra at streame de rå data, opbygge mikrotjenester til at behandle dataene, til at bygge API'er, der afslører de behandlede data. Han har samarbejdet med Amazon Machine Learning Solutions Lab om at levere rene data, som de kan arbejde med, samt at give domæneviden om selve dataene. Uden for arbejdet nyder han at cykle i Los Angeles og vandre i Sierras.
Michael Chi er seniordirektør for teknologi, der fører tilsyn med Next Gen Stats og Data Engineering i National Football League. Han har en grad i matematik og datalogi fra University of Illinois i Urbana Champaign. Michael kom først til NFL i 2007 og har primært fokuseret på teknologi og platforme til fodboldstatistikker. I sin fritid nyder han at tilbringe tid med sin familie udendørs.
Mike Band er Senior Manager for Research and Analytics for Next Gen Stats i National Football League. Siden han kom til holdet i 2018, har han været ansvarlig for idéer, udvikling og kommunikation af nøglestatistikker og indsigter udledt af spillersporingsdata for både fans, NFL-udsendelsespartnere og de 32 klubber. Mike bringer et væld af viden og erfaring til holdet med en mastergrad i analytics fra University of Chicago, en bachelorgrad i sport management fra University of Florida og erfaring i både scoutingafdelingen i Minnesota Vikings og rekrutteringsafdelingen af Florida Gator Football.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- I stand
- Om
- fremskynde
- accelererende
- Konto
- nøjagtighed
- præcis
- præcist
- tværs
- Desuden
- Vedtagelse
- fremskreden
- AI
- algoritmer
- Alle
- alternativ
- Amazon
- Amazon maskinindlæring
- Amazon ML Solutions Lab
- Amazon Web Services
- analyse
- analytics
- ,
- Angeles
- applikationer
- anvendt
- Indløs
- tilgang
- arkitektur
- omkring
- kunstig
- kunstig intelligens
- Kunstig intelligens og maskinlæring
- automotive
- tilgængelighed
- til rådighed
- gennemsnit
- AWS
- Axis
- bold
- Baseline
- Beach
- fordi
- BEDSTE
- Bedre
- mellem
- Big
- Big data
- Blå
- Begge sider
- Bringer
- udsende
- bygge
- Bygning
- virksomhed
- fange
- tilfælde
- center
- udfordringer
- Chicago
- Børn
- valg
- klassificering
- Cloud
- cloud adoption
- cloud-tjenester
- klubber
- CNN
- samarbejdet
- Fælles
- Kommunikation
- konkurrence
- computer
- Datalogi
- træk
- kontakt
- indeholder
- fortsættende
- kontinuerlig
- modsætning
- Korrelation
- Oprettelse af
- afgørende
- kunde
- Kunder
- data
- datapunkter
- dataforsker
- datavisualisering
- datasæt
- deal
- Defenders
- Forsvar
- Degree
- demonstrere
- Afdeling
- Afledt
- beskrive
- detaljer
- Udvikling
- forskel
- forskellige
- retning
- Direktør
- afstand
- fordeling
- Distributioner
- domæne
- downside
- i løbet af
- dynamik
- hver
- Tidligt
- ender
- ingeniør
- Engineering
- epoker
- især
- anslået
- skøn
- evaluere
- evaluering
- begivenheder
- eksempel
- Eksklusive
- erfaring
- Forklar
- ekstrakt
- ekstrem
- familie
- fans
- Fedt
- Feature
- Funktionalitet
- få
- felt
- Figur
- Endelig
- Finde
- Fornavn
- passer
- florida
- fokuserede
- efter
- fodbold
- fra
- fuld
- Endvidere
- Gevinst
- gevinster
- spil
- Gen
- Generelt
- få
- giver
- mål
- godt
- GPD
- graf
- Grøn
- Grid
- ske
- sundhedspleje
- hjælpe
- hjælpe
- hjælper
- Høj
- Hvordan
- How To
- HTTPS
- Illinois
- billede
- KIMOs Succeshistorier
- gennemføre
- implementeret
- betydning
- vigtigt
- in
- omfatter
- Herunder
- Forøg
- angiver
- industrielle
- industrier
- oplysninger
- indsigt
- i stedet
- Intelligens
- interaktiv
- interesse
- interesseret
- IT
- selv
- sluttede
- sammenføjning
- rejse
- Nøgle
- viden
- lab
- Efternavn
- lag
- lag
- League
- læring
- Leverage
- Livet
- Life Sciences
- Limited
- Lang
- kiggede
- den
- Los Angeles
- off
- Lot
- maskine
- machine learning
- lave
- ledelse
- leder
- Produktion
- mange
- herres
- matematik
- Medier
- metode
- Metode
- metoder
- metrisk
- Metrics
- Michael
- microservices
- ML
- model
- modeller
- modificeret
- mere
- bevægelse
- national
- Behov
- Ny
- næste
- næste gener
- NFL
- nummer
- opnå
- offensiv
- ONE
- Indstillinger
- Orange
- Andet
- Resultat
- udendørs
- udkonkurrerer
- uden for
- samlet
- pakke
- parametre
- del
- partnere
- forbi
- ydeevne
- måske
- billede
- Place
- perron
- Platforme
- plato
- Platon Data Intelligence
- PlatoData
- Leg
- spiller
- spillere
- spiller
- Vær venlig
- punkter
- position
- positioner
- mulig
- Indlæg
- forudsige
- forudsagde
- forudsigelse
- Forudsigelser
- forudser
- forberedt
- præsentere
- primært
- Problem
- problemer
- procedurer
- behandle
- Behandlet
- Produkter
- Program
- projekt
- give
- forudsat
- leverer
- Python
- rangeret
- SJÆLDEN
- Raw
- virkelige verden
- rekruttering
- fast
- relaterede
- udskiftes
- forskning
- forskning og udvikling
- ansvarlige
- Resultater
- afkast
- afkast
- stiv
- robust
- samme
- Scale
- Videnskab
- VIDENSKABER
- Videnskabsmand
- Søg
- Sæson
- sæsoner
- sekunder
- senior
- adskille
- Series
- Tjenester
- sæt
- syv
- flere
- Kort
- vist
- sider
- signifikant
- lignende
- ganske enkelt
- siden
- lille
- So
- Software
- Software Engineer
- løsninger
- Løsninger
- SOLVE
- Kilde
- særligt
- specifikke
- hastighed
- udgifterne
- Sport
- Sport
- squared
- statistik
- statistik
- standsning
- streaming
- sådan
- bord
- hold
- hold
- teknikker
- Teknologier
- vilkår
- prøve
- deres
- derfor
- tid
- Tidsserier
- til
- også
- værktøjer
- top
- Sporing
- Tog
- uddannet
- Kurser
- Transformation
- omdannet
- sand
- forstå
- universitet
- University of Chicago
- brug
- validering
- Værdier
- række
- forskellige
- vertikaler
- Vikings
- visualisering
- måder
- Rigdom
- web
- webservices
- vægt
- som
- Wikipedia
- inden for
- Vandt
- Arbejde
- arbejder
- virker
- ville
- X
- år
- Du
- Din
- zephyrnet