Vandaag zet de NFL hun reis voort om het aantal statistieken dat door de Statistiekenplatform van de volgende generatie voor alle 32 teams en fans. Met geavanceerde analyses die zijn afgeleid van machine learning (ML), creëert de NFL nieuwe manieren om voetbal te kwantificeren en om fans de tools te bieden die nodig zijn om hun kennis van het voetbal te vergroten. spellen binnen het spel van voetbal. Voor het seizoen 2022 wilde de NFL gebruikmaken van gegevens over het volgen van spelers en nieuwe geavanceerde analysetechnieken om speciale teams beter te begrijpen.
Het doel van het project was om te voorspellen hoeveel yards een herintreder zou winnen bij een punter of aftrap. Een van de uitdagingen bij het bouwen van voorspellende modellen voor punt- en aftrapreturns is de beschikbaarheid van zeer zeldzame gebeurtenissen - zoals touchdowns - die van groot belang zijn in de dynamiek van een game. Een gegevensdistributie met dikke staarten is gebruikelijk in real-world toepassingen, waar zeldzame gebeurtenissen een aanzienlijke invloed hebben op de algehele prestaties van de modellen. Het gebruik van een robuuste methode om de verdeling over extreme gebeurtenissen nauwkeurig te modelleren, is cruciaal voor betere algehele prestaties.
In dit bericht laten we zien hoe u de Spliced Binned-Pareto-distributie die in GluonTS is geïmplementeerd, kunt gebruiken om dergelijke fat-tailed-distributies robuust te modelleren.
We beschrijven eerst de gebruikte dataset. Vervolgens presenteren we de voorverwerking van gegevens en andere transformatiemethoden die op de dataset zijn toegepast. Vervolgens leggen we de details van de ML-methodologie en modeltrainingsprocedures uit. Ten slotte presenteren we de resultaten van de modelprestaties.
dataset
In dit bericht hebben we twee datasets gebruikt om afzonderlijke modellen te bouwen voor punt- en aftrapretouren. De trackinggegevens van de speler bevatten de positie, richting, versnelling en meer van de speler (in x- en y-coördinaten). Er zijn ongeveer 3,000 en 4,000 plays uit vier NFL-seizoenen (2018–2021) voor respectievelijk punt- en kickoff-plays. Bovendien zijn er zeer weinig punt- en kickoff-gerelateerde touchdowns in de datasets - respectievelijk slechts 0.23% en 0.8%. De gegevensdistributie voor punter en aftrap is verschillend. De werkelijke afstandsverdeling voor aftrap en trappen is bijvoorbeeld vergelijkbaar, maar verschoven, zoals weergegeven in de volgende afbeelding.
Voorverwerking van gegevens en feature engineering
Eerst werden de trackinggegevens gefilterd voor alleen de gegevens met betrekking tot trappen en aftrapretouren. De spelergegevens werden gebruikt om functies voor modelontwikkeling af te leiden:
- X – Spelerspositie langs de lange as van het veld
- Y – Spelerspositie langs de korte as van het veld
- S – Snelheid in yards/seconde; vervangen door Dis*10 om het nauwkeuriger te maken (Dis is de afstand in de afgelopen 0.1 seconde)
- Dir – Bewegingshoek van de speler (graden)
Van de voorgaande gegevens werd elk spel getransformeerd in 10X11X14 aan gegevens met 10 aanvallende spelers (exclusief de baldrager), 11 verdedigers en 14 afgeleide kenmerken:
- sX – x snelheid van een speler
- sY – y snelheid van een speler
- s – Snelheid van een speler
- aX – x versnelling van een speler
- aY – y versnelling van een speler
- reX – x afstand speler t.o.v. baldrager
- bouwen op – y afstand van de speler ten opzichte van de baldrager
- relSx – x snelheid van speler ten opzichte van baldrager
- relSy – y snelheid van de speler ten opzichte van de baldrager
- relDist – Euclidische afstand van speler ten opzichte van baldrager
- oppX – x afstand aanvallende speler ten opzichte van verdedigende speler
- oppY – y afstand aanvallende speler ten opzichte van verdedigende speler
- oppSx –x snelheid van aanvallende speler ten opzichte van verdedigende speler
- oppSy – y snelheid van aanvallende speler ten opzichte van verdedigende speler
Om de gegevens te vergroten en rekening te houden met de rechter- en linkerposities, werden de X- en Y-positiewaarden ook gespiegeld om rekening te houden met de rechter- en linkerveldposities. De data preprocessing en feature engineering is overgenomen van de winnaar van de NFL Big Data Bowl wedstrijd op Kaggle.
ML-methodologie en modeltraining
Omdat we geïnteresseerd zijn in alle mogelijke uitkomsten van het spel, inclusief de waarschijnlijkheid van een touchdown, kunnen we de gemiddelde gewonnen yards niet simpelweg voorspellen als een regressieprobleem. We moeten de volledige waarschijnlijkheidsverdeling van alle mogelijke werfwinsten voorspellen, dus hebben we het probleem gekaderd als een probabilistische voorspelling.
Een manier om probabilistische voorspellingen te implementeren, is door de verkregen yards toe te wijzen aan verschillende bakken (zoals minder dan 0, van 0–1, van 1–2, ..., van 14–15, meer dan 15) en de bak als een classificatie te voorspellen. probleem. De keerzijde van deze aanpak is dat we willen dat kleine bakken een high-definition beeld van de verdeling hebben, maar kleine bakken betekenen minder datapunten per bak en onze verdeling, vooral de staarten, kan slecht worden geschat en onregelmatig zijn.
Een andere manier om probabilistische voorspellingen te implementeren, is door de uitvoer te modelleren als een continue kansverdeling met een beperkt aantal parameters (bijvoorbeeld een Gauss- of Gamma-verdeling) en de parameters te voorspellen. Deze benadering geeft een zeer scherp en regelmatig beeld van de verspreiding, maar is te rigide om te passen bij de ware verdeling van gewonnen yards, die multimodaal en zwaar is.
Om het beste uit beide methoden te halen, gebruiken we Gesplitste Binned-Pareto-distributie (SBP), die bakken heeft voor het centrum van de distributie waar veel gegevens beschikbaar zijn, en Gegeneraliseerde Pareto-distributie (GPD) aan beide uiteinden, waar zeldzame maar belangrijke gebeurtenissen kunnen plaatsvinden, zoals een landing. De GPD heeft twee parameters: één voor schaal en één voor staartzwaarte, zoals te zien is in de volgende grafiek (bron: Wikipedia).
Door de GPD te splitsen met de binned distributie (zie de volgende linkergrafiek) aan beide zijden, verkrijgen we de volgende SBP aan de rechterkant. De onderste en bovenste drempels waar splicing wordt uitgevoerd, zijn hyperparameters.
Als basis hebben we het model gebruikt dat ons heeft gewonnen NFL Big Data Bowl wedstrijd op Kaggle. Dit model gebruikt CNN-lagen om kenmerken uit de voorbereide gegevens te extraheren en voorspelt de uitkomst als een "1 yard per bin"-classificatieprobleem. Voor ons model hebben we de feature-extractielagen van de basislijn behouden en alleen de laatste laag aangepast om SBP-parameters uit te voeren in plaats van waarschijnlijkheden voor elke bin, zoals weergegeven in de volgende afbeelding (afbeelding bewerkt vanuit het bericht 1e plaats oplossing The Zoo).
We gebruikten de SBP-distributie van GluonTS. GluonTS is een Python-pakket voor probabilistische tijdreeksmodellering, maar de SBP-distributie is niet specifiek voor tijdreeksen en we konden het hergebruiken voor regressie. Zie de volgende demo voor meer informatie over het gebruik van GluonTS SBP notitieboekje.
Modellen zijn getraind en kruislings gevalideerd in de seizoenen 2018, 2019 en 2020 en getest in het seizoen 2021. Om lekkage tijdens kruisvalidatie te voorkomen, hebben we alle plays van hetzelfde spel in dezelfde fold gegroepeerd.
Voor evaluatie hebben we de maatstaf behouden die werd gebruikt in de Kaggle-competitie, de continue gerangschikte waarschijnlijkheidsscore (CRPS), wat kan worden gezien als een alternatief voor de log-waarschijnlijkheid die robuuster is voor uitschieters. We gebruikten ook de Pearson-correlatiecoëfficiënt en RMSE als algemene en interpreteerbare nauwkeurigheidsstatistieken. Verder hebben we gekeken naar de waarschijnlijkheid van een touchdown en waarschijnlijkheidsgrafieken om de kalibratie te evalueren.
Het model is getraind op het CRPS verlies met behulp van Stochastische gewichtsgemiddelde en vroegtijdig stoppen.
Om de onregelmatigheid van het weggegooide deel van de uitvoerverdelingen aan te pakken, hebben we twee technieken gebruikt:
- Een gladheidsboete evenredig met het gekwadrateerde verschil tussen twee opeenvolgende bins
- Modellen samenstellen die zijn getraind tijdens kruisvalidatie
Resultaten van modelprestaties
Voor elke dataset hebben we een rasterzoekopdracht uitgevoerd op de volgende opties:
- Probabilistische modellen
- Basislijn was één kans per yard
- SBP was één waarschijnlijkheid per meter in het midden, gegeneraliseerde SBP in de staarten
- Distributie gladstrijken
- Geen afvlakking (gladheidstraf = 0)
- Gladheidsstraf = 5
- Gladheidsstraf = 10
- Training en inferentieprocedure
- 10-voudige kruisvalidatie en ensemble-inferentie (k10)
- Training op trein- en validatiegegevens voor 10 tijdperken of 20 tijdperken
Vervolgens hebben we gekeken naar de statistieken voor de top vijf modellen gesorteerd op CRPS (lager is beter).
Voor aftrapgegevens presteert het SBP-model iets beter in termen van CRPS, maar wat nog belangrijker is, het schat de kans op een landing beter in (werkelijke kans is 0.80% in de testset). We zien dat de beste modellen 10-voudige samenvoeging (k10) gebruiken en geen gladheidstraf, zoals weergegeven in de volgende tabel.
Trainingen | Model | Gladheid | CRPS | RMSE | CORR% | P(touchdown)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
De volgende grafiek van de waargenomen frequenties en voorspelde waarschijnlijkheden duidt op een goede kalibratie van ons beste model, met een RMSE van 0.27 tussen de twee distributies. Let op het voorkomen van grote afstanden (bijvoorbeeld 100) die voorkomen in de staart van de ware (blauwe) empirische verdeling, waarvan de waarschijnlijkheden beter kunnen worden vastgelegd door de SBP dan door de basislijnmethode.
Voor puntgegevens presteert de basislijn beter dan de SBP, misschien omdat de staarten van extreme afstanden minder realisaties hebben. Daarom is het een betere afweging om de modaliteit tussen pieken van 0-10 meter vast te leggen; en in tegenstelling tot kickoff-gegevens, gebruikt het beste model een smoothness penalty. De volgende tabel vat onze bevindingen samen.
Trainingen | Model | Gladheid | CRPS | RMSE | CORR% | P(touchdown)% |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
De volgende grafiek van waargenomen frequenties (in blauw) en voorspelde kansen voor de twee beste puntmodellen geeft aan dat het niet-afgevlakte model (in oranje) iets beter gekalibreerd is dan het afgevlakte model (in groen) en in het algemeen een betere keuze kan zijn.
Conclusie
In dit bericht hebben we laten zien hoe voorspellende modellen kunnen worden gebouwd met een vetstaartige gegevensdistributie. We gebruikten de Spliced Binned-Pareto-distributie, geïmplementeerd in GluonTS, die dergelijke fat-tailed-distributies robuust kan modelleren. We hebben deze techniek gebruikt om modellen te bouwen voor punt- en aftrapreturns. We kunnen deze oplossing toepassen op vergelijkbare use-cases waarbij er zeer weinig gebeurtenissen in de gegevens voorkomen, maar die gebeurtenissen een aanzienlijke invloed hebben op de algehele prestaties van de modellen.
Als u hulp wilt bij het versnellen van het gebruik van ML in uw producten en diensten, neem dan contact op met de Amazon ML Solutions-lab programma.
Over de auteurs
Tesfagabir Meharizghi is Data Scientist bij de Amazon ML Solutions-lab waar hij AWS-klanten in verschillende sectoren, zoals gezondheidszorg en life sciences, productie, automotive en sport en media, helpt om hun gebruik van machine learning en AWS-cloudservices te versnellen om hun zakelijke uitdagingen op te lossen.
Marc van Oudheusden is een Senior Data Scientist bij het Amazon ML Solutions Lab-team bij Amazon Web Services. Hij werkt samen met AWS-klanten om zakelijke problemen op te lossen met kunstmatige intelligentie en machine learning. Buiten zijn werk vind je hem misschien op het strand, spelend met zijn kinderen, surfen of kitesurfen.
Panpan Xu is Senior Applied Scientist en Manager bij het Amazon ML Solutions Lab bij AWS. Ze werkt aan onderzoek en ontwikkeling van Machine Learning-algoritmen voor klanttoepassingen met een grote impact in verschillende industriële branches om hun AI- en cloudadoptie te versnellen. Haar onderzoeksinteresse omvat de interpreteerbaarheid van modellen, causale analyse, human-in-the-loop AI en interactieve datavisualisatie.
Kyeong Hoon (Jonathan) Jung is een senior software engineer bij de National Football League. Hij is de afgelopen zeven jaar bij het Next Gen Stats-team geweest om te helpen bij het uitbouwen van het platform, van het streamen van de onbewerkte gegevens, het uitbouwen van microservices om de gegevens te verwerken, tot het bouwen van API's die de verwerkte gegevens blootleggen. Hij heeft samengewerkt met het Amazon Machine Learning Solutions Lab bij het leveren van schone gegevens waarmee ze kunnen werken, en het verstrekken van domeinkennis over de gegevens zelf. Buiten zijn werk houdt hij van fietsen in Los Angeles en wandelen in de Sierras.
Michaël Chi is een Senior Director of Technology die toezicht houdt op Next Gen Stats en Data Engineering bij de National Football League. Hij heeft een graad in Wiskunde en Informatica van de Universiteit van Illinois in Urbana Champaign. Michael kwam in 2007 voor het eerst bij de NFL en heeft zich voornamelijk gericht op technologie en platforms voor voetbalstatistieken. In zijn vrije tijd brengt hij graag tijd door met zijn gezin buitenshuis.
Mike Band is Senior Manager Research and Analytics voor Next Gen Stats bij de National Football League. Sinds hij in 2018 bij het team kwam, is hij verantwoordelijk voor het bedenken, ontwikkelen en communiceren van belangrijke statistieken en inzichten die zijn afgeleid van spelersvolggegevens voor fans, NFL-uitzendpartners en de 32 clubs. Mike brengt een schat aan kennis en ervaring mee naar het team met een masterdiploma in analyse van de Universiteit van Chicago, een bachelordiploma in sportmanagement van de Universiteit van Florida, en ervaring in zowel de scoutingafdeling van de Minnesota Vikings als de rekruteringsafdeling van Florida Gator Football.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- in staat
- Over
- versnellen
- versnellen
- Account
- nauwkeurigheid
- accuraat
- nauwkeurig
- over
- toevoeging
- Adoptie
- vergevorderd
- AI
- algoritmen
- Alles
- alternatief
- Amazone
- Amazon machinaal leren
- Amazon ML Solutions-lab
- Amazon Web Services
- analyse
- analytics
- en
- Angeles
- toepassingen
- toegepast
- Solliciteer
- nadering
- architectuur
- rond
- kunstmatig
- kunstmatige intelligentie
- Kunstmatige intelligentie en machine learning
- automotive
- beschikbaarheid
- Beschikbaar
- gemiddelde
- AWS
- As
- bal
- Baseline
- Beach
- omdat
- BEST
- Betere
- tussen
- Groot
- Big data
- Blauw
- Beide kanten
- Brengt
- uitzenden
- bouw
- Gebouw
- bedrijfsdeskundigen
- vangen
- gevallen
- Centreren
- uitdagingen
- chicago
- Kinderen
- keuze
- classificatie
- Cloud
- cloud adoptie
- cloud-diensten
- clubs
- CNN
- samengewerkt
- Gemeen
- Communicatie
- concurrentie
- computer
- Computer Science
- opeenvolgend
- contact
- bevat
- voortgezette
- doorlopend
- tegendeel
- Correlatie
- Wij creëren
- cruciaal
- klant
- Klanten
- gegevens
- data punten
- data scientist
- data visualisatie
- datasets
- transactie
- verdedigers
- Verdediging
- Mate
- tonen
- afdeling
- Afgeleid
- beschrijven
- gegevens
- Ontwikkeling
- verschil
- anders
- richting
- Director
- afstand
- distributie
- Uitkeringen
- domein
- keerzijde
- gedurende
- dynamica
- elk
- Vroeg
- eindigt
- ingenieur
- Engineering
- tijdperken
- vooral
- geschat
- schattingen
- schatten
- evaluatie
- EVENTS
- voorbeeld
- Exclusief
- ervaring
- Verklaren
- extract
- extreem
- familie
- <p></p>
- Vet
- Kenmerk
- Voordelen
- weinig
- veld-
- Figuur
- Tot slot
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- Voornaam*
- geschikt
- Florida
- gericht
- volgend
- Voetbal
- oppompen van
- vol
- Bovendien
- Krijgen
- verdiensten
- spel
- Gen
- Algemeen
- krijgen
- geeft
- doel
- goed
- GPD
- diagram
- Groen
- Raster
- gebeuren
- gezondheidszorg
- hulp
- het helpen van
- helpt
- Hoge
- Hoe
- How To
- HTTPS
- Illinois
- beeld
- Impact
- uitvoeren
- geïmplementeerd
- belang
- belangrijk
- in
- omvat
- Inclusief
- Laat uw omzet
- geeft aan
- industrieel
- industrieën
- informatie
- inzichten
- verkrijgen in plaats daarvan
- Intelligentie
- interactieve
- belang
- geïnteresseerd
- IT
- zelf
- toegetreden
- aansluiting
- sleutel
- kennis
- laboratorium
- Achternaam*
- lagen
- Legkippen
- Competitie
- leren
- Hefboomwerking
- Life
- Bio
- Beperkt
- lang
- keek
- de
- Los Angeles
- uit
- lot
- machine
- machine learning
- maken
- management
- manager
- productie
- veel
- master's
- wiskunde
- Media
- methode
- Methodologie
- methoden
- metriek
- Metriek
- Michael
- microservices
- ML
- model
- modellen
- gewijzigd
- meer
- beweging
- nationaal
- Noodzaak
- New
- volgende
- next-gen
- NFL
- aantal
- verkrijgen
- aanvallend
- EEN
- Opties
- Oranje
- Overige
- Resultaat
- buiten
- presteert beter
- buiten
- totaal
- pakket
- parameters
- deel
- partners
- verleden
- prestatie
- misschien
- beeld
- plaats
- platform
- platforms
- Plato
- Plato gegevensintelligentie
- PlatoData
- Spelen
- speler
- spelers
- spelen
- dan
- punten
- positie
- posities
- mogelijk
- Post
- voorspellen
- voorspeld
- voorspelling
- Voorspellingen
- voorspelt
- bereid
- presenteren
- in de eerste plaats
- probleem
- problemen
- procedures
- Verwerkt
- Producten
- Programma
- project
- zorgen voor
- mits
- het verstrekken van
- Python
- gerangschikt
- BIJZONDER
- Rauw
- echte wereld
- werven
- regelmatig
- verwant
- vervangen
- onderzoek
- onderzoek en ontwikkeling
- verantwoordelijk
- Resultaten
- terugkeer
- Retourneren
- stijf
- robuust
- dezelfde
- Scale
- Wetenschap
- WETENSCHAPPEN
- Wetenschapper
- Ontdek
- Seizoen
- seizoenen
- seconden
- senior
- apart
- -Series
- Diensten
- reeks
- zeven
- verscheidene
- Bermuda's
- getoond
- Sides
- aanzienlijke
- gelijk
- eenvoudigweg
- sinds
- Klein
- So
- Software
- Software Engineer
- oplossing
- Oplossingen
- OPLOSSEN
- bron
- special
- specifiek
- snelheid
- Uitgaven
- Sport
- Sport
- squared
- statistiek
- stats
- stoppen
- streaming
- dergelijk
- tafel
- team
- teams
- technieken
- Technologie
- termen
- proef
- De
- hun
- daarom
- niet de tijd of
- Tijdreeksen
- naar
- ook
- tools
- top
- Tracking
- Trainen
- getraind
- Trainingen
- Transformatie
- getransformeerd
- waar
- begrijpen
- universiteit-
- University of Chicago
- .
- bevestiging
- Values
- variëteit
- divers
- verticals
- Vikingen
- visualisatie
- manieren
- Rijkdom
- web
- webservices
- gewicht
- welke
- Wikipedia
- binnen
- Won
- Mijn werk
- werkzaam
- Bedrijven
- zou
- X
- jaar
- You
- Your
- zephyrnet