Ma az NFL folytatja útját, hogy növelje az általa szolgáltatott statisztikák számát Következő generációs statisztikai platform mind a 32 csapatnak és a szurkolóknak egyaránt. A gépi tanulásból (ML) származó fejlett analitikával az NFL új módszereket teremt a futball számszerűsítésére, és arra, hogy a szurkolók rendelkezésére bocsássák azokat az eszközöket, amelyekkel bővíthetik tudásukat a futballról. játékok a játékon belül a futballról. A 2022-es szezonban az NFL célja a játékoskövetési adatok és az új fejlett analitikai technikák kiaknázása volt. hogy jobban megértsük a speciális csapatokat.
A projekt célja az volt, hogy megjósolja, hány yardot szerez egy visszatérő egy punt vagy kickoff játék során. A punt és a kickoff visszatérések prediktív modelljeinek felépítése során az egyik kihívás a nagyon ritka események – például a touchdownok – elérhetősége, amelyek jelentős jelentőséggel bírnak a játék dinamikájában. A zsírfarokkal rendelkező adateloszlás gyakori a valós alkalmazásokban, ahol a ritka események jelentős hatással vannak a modellek általános teljesítményére. Egy robusztus módszer alkalmazása a szélsőséges események közötti eloszlás pontos modellezésére kulcsfontosságú a jobb általános teljesítményhez.
Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk a GluonTS-ben megvalósított Spliced Binned-Pareto eloszlást az ilyen zsírfarkú eloszlások robusztus modellezésére.
Először leírjuk a használt adatkészletet. Ezután bemutatjuk az adatkészletre alkalmazott adat-előfeldolgozási és egyéb átalakítási módszereket. Ezután elmagyarázzuk az ML módszertan és modellképzési eljárások részleteit. Végül bemutatjuk a modell teljesítményének eredményeit.
adatbázisba
Ebben a bejegyzésben két adatkészletet használtunk, hogy külön modelleket hozzunk létre a punt és a kickoff visszatérésekhez. A játékoskövetési adatok a játékos pozícióját, irányát, gyorsulását és egyebeket tartalmazzák (x,y koordinátákban). Négy NFL-szezonból (3,000–4,000) körülbelül 2018, illetve 2021 játék van a punt- és a kickoff-játékokban. Ezen kívül nagyon kevés ponttal és kickofftal kapcsolatos touchdown található az adatkészletekben – mindössze 0.23%, illetve 0.8%. A punt és a kickoff adateloszlása eltérő. Például a kezdőrúgások és a puntok valós yard-eloszlása hasonló, de eltolódott, amint az a következő ábrán látható.
Adatok előfeldolgozása és funkciótervezés
Először a követési adatokat csak a pontokra és a kickoff visszatérésre vonatkozó adatokra szűrtük. A játékosadatokat a modellfejlesztéshez szükséges jellemzők származtatására használták fel:
- X – A játékos helyzete a pálya hossztengelye mentén
- Y – A játékos helyzete a pálya rövid tengelye mentén
- S – Sebesség yard/másodpercben; Dis*10 helyettesíti, hogy pontosabb legyen (Dis a távolság az elmúlt 0.1 másodpercben)
- Ön - A játékos mozgási szöge (fok)
Az előző adatokból minden játék 10X11X14 adattá alakult 10 támadójátékossal (a labdahordozó kivételével), 11 védővel és 14 származtatott tulajdonsággal:
- sX – x egy játékos sebessége
- sY – y játékos sebessége
- s - Egy játékos sebessége
- aX – x egy játékos gyorsulása
- aY – y játékos gyorsulása
- relX – x a játékos távolsága a labdahordozóhoz képest
- támaszkodni – y játékos távolsága a labdahordozóhoz képest
- relSx – x a játékos sebessége a labdahordozóhoz viszonyítva
- relSy – y játékos sebessége a labdahordozóhoz viszonyítva
- relDist – A játékos euklideszi távolsága a labdahordozóhoz képest
- oppX – x a támadó játékos távolsága a védekező játékoshoz viszonyítva
- oppY – y a támadó játékos távolsága a védekező játékoshoz viszonyítva
- oppSx –x támadójátékos sebessége a védekező játékoshoz viszonyítva
- oppSy – y a támadó játékos sebessége a védekező játékoshoz viszonyítva
Az adatok bővítése és a jobb és bal pozíciók figyelembevétele érdekében az X és Y pozícióértékeket tükröztük, hogy figyelembe vegyék a jobb és bal oldali pozíciókat. Az adatok előfeldolgozása és szolgáltatástervezése a nyertestől lett adaptálva NFL Big Data Bowl verseny a Kaggle-n.
ML módszertan és modellképzés
Mivel érdekel minket a játék minden lehetséges kimenetele, beleértve a touchdown valószínűségét is, nem tudjuk egyszerűen megjósolni az átlagos megszerzett yardokat, mint regressziós problémát. Meg kell jósolnunk az összes lehetséges yard nyereség teljes valószínűségi eloszlását, ezért a problémát valószínűségi előrejelzésként fogalmaztuk meg.
A valószínűségi előrejelzések megvalósításának egyik módja az, hogy a megszerzett yardokat több tárolóhoz rendeljük (például 0-nál kevesebb, 0–1, 1–2, …, 14–15, több mint 15), és besorolásként megjósoljuk a tárolót. probléma. Ennek a megközelítésnek az a hátránya, hogy azt szeretnénk, hogy a kis tárolók nagy felbontású képet kapjanak az eloszlásról, de a kis tárolók kevesebb adatpontot jelentenek tálcánként, és eloszlásunk, különösen a végpontok, rosszul becsülhető és szabálytalan.
A valószínűségi előrejelzések megvalósításának másik módja a kimenet folyamatos valószínűségi eloszlásként történő modellezése korlátozott számú paraméterrel (például Gauss- vagy Gamma-eloszlás), és a paraméterek előrejelzése. Ez a megközelítés nagyon nagy felbontású és szabályos képet ad az eloszlásról, de túl merev ahhoz, hogy illeszkedjen a megszerzett yardok valódi eloszlásához, amely multimodális és nehéz farkú.
Mindkét módszer legjobb kihasználása érdekében használjuk Összeillesztett Binned-Pareto eloszlás (SBP), amelynek rekeszek vannak a terjesztés középpontjában, ahol sok adat áll rendelkezésre, és Általánosított Pareto-eloszlás (GPD) mindkét végén, ahol ritka, de fontos események történhetnek, például egy touchdown. A GPD-nek két paramétere van: az egyik a skála és a másik a farok nehézsége, amint az a következő grafikonon látható (forrás: Wikipédia).
Ha a GPD-t a binned eloszlással (lásd a következő bal oldali grafikont) mindkét oldalon összeillesztjük, a következő SBP-t kapjuk a jobb oldalon. Az alsó és felső küszöb, ahol az illesztés megtörténik, hiperparaméterek.
Kiindulási alapként azt a modellt használtuk, amelyik megnyerte NFL Big Data Bowl verseny a Kaggle-n. Ez a modell CNN-rétegeket használ a jellemzők kinyerésére az előkészített adatokból, és az eredményt „1 yard per bin” osztályozási problémaként jósolja meg. Modellünk esetében megtartottuk a jellemzőkivonási rétegeket az alapvonaltól, és csak az utolsó réteget módosítottuk úgy, hogy SBP-paramétereket adjon ki az egyes tárolókra vonatkozó valószínűségek helyett, amint az a következő ábrán látható (a kép a bejegyzésből szerkesztve 1. helyezett megoldás Az Állatkert).
által biztosított SBP disztribúciót használtuk GluonTS. A GluonTS egy Python-csomag valószínűségi idősor-modellezéshez, de az SBP-eloszlás nem specifikus az idősorokra, ezért újra tudtuk használni a regresszióhoz. A GluonTS SBP használatával kapcsolatos további információkért tekintse meg a következő bemutatót jegyzetfüzet.
A modelleket a 2018-as, 2019-es és 2020-as szezonban képezték ki és keresztvalidálták, a 2021-es szezonban pedig tesztelték őket. A keresztellenőrzés során a kiszivárgás elkerülése érdekében ugyanabból a játékból az összes játékot ugyanabba a foldba csoportosítottuk.
Az értékeléshez megtartottuk a Kaggle versenyen használt mérőszámot, a folyamatos rangsorolt valószínűségi pontszám (CRPS), amely a kiugró értékekre robusztusabb log-likelihood alternatívájának tekinthető. Mi is használtuk a Pearson korrelációs együttható és a RMSE mint általános és értelmezhető pontossági mérőszámok. Továbbá megvizsgáltuk az érintés valószínűségét és a valószínűségi diagramokat a kalibráció értékeléséhez.
A modellt a CRPS veszteség felhasználásával képezték ki Sztochasztikus súlyátlagolás és korai megállás.
A kimeneti elosztások bindált részének szabálytalanságának kezelésére két technikát alkalmaztunk:
- Egy simasági büntetés, amely arányos a két egymást követő rekesz közötti különbség négyzetével
- A keresztellenőrzés során betanított modellek összeállítása
A modell teljesítményének eredményei
Minden adatkészletre rácskeresést végeztünk a következő lehetőségek között:
- Valószínűségi modellek
- Az alapvonal yardonként egy valószínűség volt
- Az SBP yardonként egy valószínűség volt a központban, az általánosított SBP a farokban
- Eloszlás simítás
- Nincs simítás (simasági büntetés = 0)
- Simasági büntetés = 5
- Simasági büntetés = 10
- Képzési és következtetési eljárás
- 10 hajtás keresztellenőrzés és együttes következtetés (k10)
- Képzés a vonaton és érvényesítési adatok 10 vagy 20 korszakra vonatkozóan
Ezután megvizsgáltuk az öt legjobb modell mutatóit a CRPS szerint rendezve (az alacsonyabb, annál jobb).
A kickoff adatok esetében az SBP modell enyhén túlteljesít a CRPS tekintetében, de ami még fontosabb, jobban megbecsüli a touchdown valószínűségét (a valódi valószínűség 0.80% a tesztkészletben). Látjuk, hogy a legjobb modellek 10 hajtást (k10) használnak, és nincs simasági büntetés, amint az a következő táblázatban látható.
Képzések | Modell | Simaság | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | kiindulási | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | kiindulási | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | kiindulási | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
A megfigyelt gyakoriságok és a megjósolt valószínűségek alábbi diagramja a legjobb modellünk jó kalibrálását jelzi, a két eloszlás közötti RMSE 0.27. Figyeljük meg a nagy yardage (például 100) előfordulásait, amelyek a valódi (kék) empirikus eloszlás végében fordulnak elő, és amelyek valószínűségét az SBP jobban megragadja, mint az alapmódszer.
A pontadatok esetében az alapvonal felülmúlja az SBP-t, talán azért, mert az extrém yardage-ok farka kevesebb realizációval rendelkezik. Ezért jobb kompromisszum a 0–10 yardos csúcsok közötti modalitás rögzítése; és a kickoff adatokkal ellentétben a legjobb modell simasági büntetést alkalmaz. Az alábbi táblázat összefoglalja megállapításainkat.
Képzések | Modell | Simaság | CRPS | RMSE | CORR % | P(touchdown)% |
k10 | kiindulási | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | kiindulási | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | kiindulási | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
A megfigyelt frekvenciák (kék színnel) és a becsült valószínűségek következő diagramja a két legjobb pontmodellhez azt jelzi, hogy a nem simított modell (narancssárga színben) valamivel jobban kalibrált, mint a simított modell (zöld színnel), és összességében jobb választás lehet.
Következtetés
Ebben a bejegyzésben megmutattuk, hogyan lehet prediktív modelleket felépíteni zsírfarkú adateloszlással. A GluonTS-ben megvalósított Spliced Binned-Pareto disztribúciót használtuk, amely robusztusan képes modellezni az ilyen zsíros eloszlásokat. Ezt a technikát használtuk a punt és kickoff return modellek felépítésére. Ezt a megoldást hasonló felhasználási esetekre is alkalmazhatjuk, ahol nagyon kevés esemény szerepel az adatokban, de ezek az események jelentős hatással vannak a modellek általános teljesítményére.
Ha segítségre van szüksége az ML használatának felgyorsításában termékeiben és szolgáltatásaiban, kérjük, forduljon a Amazon ML Solutions Lab program.
A szerzőkről
Tesfagabir Meharizghi adattudós a Amazon ML Solutions Lab ahol segít az AWS ügyfeleinek különböző iparágakban, például az egészségügyben és az élettudományokban, a gyártásban, az autóiparban, valamint a sportban és a médiában, hogy felgyorsítsák a gépi tanulás és az AWS felhőszolgáltatások használatát üzleti kihívásaik megoldásában.
Marc van Oudheusden az Amazon Web Services Amazon ML Solutions Lab csapatának vezető adattudósa. Az AWS-ügyfelekkel együttműködve megoldja az üzleti problémákat mesterséges intelligencia és gépi tanulás segítségével. Munkán kívül megtalálhatja őt a tengerparton, a gyerekeivel játszik, szörfözik vagy kiteszörföz.
Panpan Xu vezető alkalmazott tudós és menedzser az Amazon ML Solutions Labnál az AWS-nél. Gépi tanulási algoritmusok kutatásán és fejlesztésén dolgozik nagy hatású ügyfélalkalmazásokhoz számos ipari ágazatban, hogy felgyorsítsa az AI és a felhő alkalmazását. Kutatási területe a modell értelmezhetősége, az ok-okozati elemzés, a humán in-the-loop AI és az interaktív adatvizualizáció.
Kyeong Hoon (Jonathan) Jung a National Football League vezető szoftvermérnöke. Az elmúlt hét évben a Next Gen Stats csapatánál dolgozott, és segített kiépíteni a platformot a nyers adatok streamelésétől, az adatok feldolgozására szolgáló mikroszolgáltatások kiépítésén át a feldolgozott adatokat feltáró API-k létrehozásáig. Együttműködött az Amazon Machine Learning Solutions Laboratóriummal, hogy tiszta adatokat biztosítson számukra a munkához, valamint tartományi ismereteket biztosítson magáról az adatokról. Munkán kívül szeret kerékpározni Los Angelesben és túrázni a Sierrasban.
Michael Chi vezető technológiai igazgató, aki a National Football League Next Gen Stats és Data Engineering részlegét felügyeli. Matematikából és számítástechnikából szerzett diplomát az Illinoisi Egyetemen, Urbana Champaignben. Michael először 2007-ben csatlakozott az NFL-hez, és elsősorban a technológiára és a futballstatisztikák platformjaira összpontosított. Szabadidejében szívesen tölt időt a családjával a szabadban.
Mike Band a National Football League-nél a következő generációs statisztikák kutatási és elemzési részlegének vezető menedzsere. Amióta 2018-ban csatlakozott a csapathoz, ő felel az ötletelésért, a fejlesztésért és a játékoskövetési adatokból származó kulcsfontosságú statisztikák és meglátások kommunikálásáért a rajongók, az NFL közvetítő partnerei és a 32 klub számára egyaránt. Mike rengeteg tudást és tapasztalatot hoz a csapatba a Chicagói Egyetemen szerzett analitikus mesterdiplomával, a Floridai Egyetemen sportmenedzseri diplomával, valamint a Minnesota Vikings felderítő osztályán és a toborzási osztályon szerzett tapasztalattal. a Florida Gator Football.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Képes
- Rólunk
- gyorsul
- gyorsuló
- Fiók
- pontosság
- pontos
- pontosan
- át
- mellett
- Örökbefogadás
- fejlett
- AI
- algoritmusok
- Minden termék
- alternatív
- amazon
- Amazon gépi tanulás
- Amazon ML Solutions Lab
- Az Amazon Web Services
- elemzés
- analitika
- és a
- Angeles
- alkalmazások
- alkalmazott
- alkalmaz
- megközelítés
- építészet
- körül
- mesterséges
- mesterséges intelligencia
- Mesterséges intelligencia és gépi tanulás
- autóipari
- elérhetőség
- elérhető
- átlagos
- AWS
- Tengely
- labda
- kiindulási
- strand
- mert
- BEST
- Jobb
- között
- Nagy
- Big adatok
- Kék
- Mindkét oldal
- Bring
- rádióadás
- épít
- Épület
- üzleti
- elfog
- esetek
- Központ
- kihívások
- Chicago
- Gyerekek
- választás
- besorolás
- felhő
- felhő elfogadása
- felhő szolgáltatások
- klubok
- CNN
- együtt
- Közös
- közlés
- verseny
- számítógép
- Computer Science
- folyamatos
- kapcsolat
- tartalmaz
- folyamatos
- folyamatos
- ellentétes
- Összefüggés
- létrehozása
- kritikus
- vevő
- Ügyfelek
- dátum
- adat pontok
- adattudós
- adatmegjelenítés
- adatkészletek
- üzlet
- Védők
- Védelem
- Fok
- bizonyítani
- osztály
- Származtatott
- leírni
- részletek
- Fejlesztés
- különbség
- különböző
- irány
- Igazgató
- távolság
- terjesztés
- disztribúció
- domain
- hátránya
- alatt
- dinamika
- minden
- Korai
- vége
- mérnök
- Mérnöki
- korszakok
- különösen
- becsült
- becslések
- értékelni
- értékelés
- események
- példa
- kizárás
- tapasztalat
- Magyarázza
- kivonat
- szélső
- család
- rajongók
- Zsír
- Funkció
- Jellemzők
- kevés
- mező
- Ábra
- Végül
- Találjon
- vezetéknév
- megfelelő
- Florida
- összpontosított
- következő
- Futball
- ból ből
- Tele
- Továbbá
- Nyereség
- Nyereség
- játék
- Gen
- általános
- kap
- ad
- cél
- jó
- GPD
- grafikon
- Zöld
- Rács
- történik
- egészségügyi
- segít
- segít
- segít
- Magas
- Hogyan
- How To
- HTTPS
- Illinois
- kép
- Hatás
- végre
- végre
- fontosság
- fontos
- in
- magában foglalja a
- Beleértve
- Növelje
- jelzi
- ipari
- iparágak
- információ
- meglátások
- helyette
- Intelligencia
- interaktív
- kamat
- érdekelt
- IT
- maga
- csatlakozott
- csatlakozott
- utazás
- Kulcs
- tudás
- labor
- keresztnév
- réteg
- tojók
- Liga
- tanulás
- Tőkeáttétel
- élet
- Life Sciences
- Korlátozott
- Hosszú
- nézett
- az
- Los Angeles
- le
- Sok
- gép
- gépi tanulás
- csinál
- vezetés
- menedzser
- gyártási
- sok
- mester
- matematika
- Média
- módszer
- Módszertan
- mód
- metrikus
- Metrics
- Michael
- microservices
- ML
- modell
- modellek
- módosított
- több
- mozgás
- nemzeti
- Szükség
- Új
- következő
- következő nem
- NFL
- szám
- szerez
- támadó
- ONE
- Opciók
- narancs
- Más
- Eredmény
- szabadban
- felülmúlja
- kívül
- átfogó
- csomag
- paraméterek
- rész
- partnerek
- múlt
- teljesítmény
- talán
- kép
- Hely
- emelvény
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- játszani
- játékos
- játékos
- játék
- kérem
- pont
- pozíció
- pozíciók
- lehetséges
- állás
- előre
- jósolt
- előrejelzés
- Tippek
- jósolja
- előkészített
- be
- elsősorban
- Probléma
- problémák
- eljárások
- folyamat
- Feldolgozott
- Termékek
- Program
- program
- ad
- feltéve,
- amely
- Piton
- rangsorolt
- RITKA
- Nyers
- való Világ
- toborzás
- szabályos
- összefüggő
- helyébe
- kutatás
- kutatás és fejlesztés
- felelős
- Eredmények
- visszatérés
- Visszatér
- merev
- erős
- azonos
- Skála
- Tudomány
- TUDOMÁNYOK
- Tudós
- Keresés
- Évad
- évszakok
- másodperc
- idősebb
- különálló
- Series of
- Szolgáltatások
- készlet
- hét
- számos
- rövid
- mutatott
- Sides
- jelentős
- hasonló
- egyszerűen
- óta
- kicsi
- So
- szoftver
- Software Engineer
- megoldások
- Megoldások
- SOLVE
- forrás
- speciális
- különleges
- sebesség
- Költési
- Sport
- Sport
- Négyzet
- statisztika
- statisztika
- megállítás
- folyó
- ilyen
- táblázat
- csapat
- csapat
- technikák
- Technológia
- feltételek
- teszt
- A
- azok
- ebből adódóan
- idő
- Idősorok
- nak nek
- is
- szerszámok
- felső
- Csomagkövetés
- Vonat
- kiképzett
- Képzések
- Átalakítás
- át
- igaz
- megért
- egyetemi
- University of Chicago
- használ
- érvényesítés
- Értékek
- fajta
- különféle
- függőlegesek
- Vikings
- megjelenítés
- módon
- Vagyon
- háló
- webes szolgáltatások
- súly
- ami
- Wikipedia
- belül
- Nyerte
- Munka
- dolgozó
- művek
- lenne
- X
- év
- te
- A te
- zephyrnet