Predict Football Punt And Kickoff Return Yards With Fat-tailed Distribution Using GluonTS

Újra kiadta Platón

Követő: 0

Ma az NFL folytatja útját, hogy növelje az általa szolgáltatott statisztikák számát Következő generációs statisztikai platform mind a 32 csapatnak és a szurkolóknak egyaránt. A gépi tanulásból (ML) származó fejlett analitikával az NFL új módszereket teremt a futball számszerűsítésére, és arra, hogy a szurkolók rendelkezésére bocsássák azokat az eszközöket, amelyekkel bővíthetik tudásukat a futballról. játékok a játékon belül a futballról. A 2022-es szezonban az NFL célja a játékoskövetési adatok és az új fejlett analitikai technikák kiaknázása volt. hogy jobban megértsük a speciális csapatokat.

A projekt célja az volt, hogy megjósolja, hány yardot szerez egy visszatérő egy punt vagy kickoff játék során. A punt és a kickoff visszatérések prediktív modelljeinek felépítése során az egyik kihívás a nagyon ritka események – például a touchdownok – elérhetősége, amelyek jelentős jelentőséggel bírnak a játék dinamikájában. A zsírfarokkal rendelkező adateloszlás gyakori a valós alkalmazásokban, ahol a ritka események jelentős hatással vannak a modellek általános teljesítményére. Egy robusztus módszer alkalmazása a szélsőséges események közötti eloszlás pontos modellezésére kulcsfontosságú a jobb általános teljesítményhez.

Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk a GluonTS-ben megvalósított Spliced Binned-Pareto eloszlást az ilyen zsírfarkú eloszlások robusztus modellezésére.

Először leírjuk a használt adatkészletet. Ezután bemutatjuk az adatkészletre alkalmazott adat-előfeldolgozási és egyéb átalakítási módszereket. Ezután elmagyarázzuk az ML módszertan és modellképzési eljárások részleteit. Végül bemutatjuk a modell teljesítményének eredményeit.

adatbázisba

Ebben a bejegyzésben két adatkészletet használtunk, hogy külön modelleket hozzunk létre a punt és a kickoff visszatérésekhez. A játékoskövetési adatok a játékos pozícióját, irányát, gyorsulását és egyebeket tartalmazzák (x,y koordinátákban). Négy NFL-szezonból (3,000–4,000) körülbelül 2018, illetve 2021 játék van a punt- és a kickoff-játékokban. Ezen kívül nagyon kevés ponttal és kickofftal kapcsolatos touchdown található az adatkészletekben – mindössze 0.23%, illetve 0.8%. A punt és a kickoff adateloszlása eltérő. Például a kezdőrúgások és a puntok valós yard-eloszlása hasonló, de eltolódott, amint az a következő ábrán látható.

Punts és kickoff visszatérő yardok elosztása

Adatok előfeldolgozása és funkciótervezés

Először a követési adatokat csak a pontokra és a kickoff visszatérésre vonatkozó adatokra szűrtük. A játékosadatokat a modellfejlesztéshez szükséges jellemzők származtatására használták fel:

X – A játékos helyzete a pálya hossztengelye mentén
Y – A játékos helyzete a pálya rövid tengelye mentén
S – Sebesség yard/másodpercben; Dis*10 helyettesíti, hogy pontosabb legyen (Dis a távolság az elmúlt 0.1 másodpercben)
Ön - A játékos mozgási szöge (fok)

Az előző adatokból minden játék 10X11X14 adattá alakult 10 támadójátékossal (a labdahordozó kivételével), 11 védővel és 14 származtatott tulajdonsággal:

sX – x egy játékos sebessége
sY – y játékos sebessége
s - Egy játékos sebessége
aX – x egy játékos gyorsulása
aY – y játékos gyorsulása
relX – x a játékos távolsága a labdahordozóhoz képest
támaszkodni – y játékos távolsága a labdahordozóhoz képest
relSx – x a játékos sebessége a labdahordozóhoz viszonyítva
relSy – y játékos sebessége a labdahordozóhoz viszonyítva
relDist – A játékos euklideszi távolsága a labdahordozóhoz képest
oppX – x a támadó játékos távolsága a védekező játékoshoz viszonyítva
oppY – y a támadó játékos távolsága a védekező játékoshoz viszonyítva
oppSx –x támadójátékos sebessége a védekező játékoshoz viszonyítva
oppSy – y a támadó játékos sebessége a védekező játékoshoz viszonyítva

Az adatok bővítése és a jobb és bal pozíciók figyelembevétele érdekében az X és Y pozícióértékeket tükröztük, hogy figyelembe vegyék a jobb és bal oldali pozíciókat. Az adatok előfeldolgozása és szolgáltatástervezése a nyertestől lett adaptálva NFL Big Data Bowl verseny a Kaggle-n.

ML módszertan és modellképzés

Mivel érdekel minket a játék minden lehetséges kimenetele, beleértve a touchdown valószínűségét is, nem tudjuk egyszerűen megjósolni az átlagos megszerzett yardokat, mint regressziós problémát. Meg kell jósolnunk az összes lehetséges yard nyereség teljes valószínűségi eloszlását, ezért a problémát valószínűségi előrejelzésként fogalmaztuk meg.

A valószínűségi előrejelzések megvalósításának egyik módja az, hogy a megszerzett yardokat több tárolóhoz rendeljük (például 0-nál kevesebb, 0–1, 1–2, …, 14–15, több mint 15), és besorolásként megjósoljuk a tárolót. probléma. Ennek a megközelítésnek az a hátránya, hogy azt szeretnénk, hogy a kis tárolók nagy felbontású képet kapjanak az eloszlásról, de a kis tárolók kevesebb adatpontot jelentenek tálcánként, és eloszlásunk, különösen a végpontok, rosszul becsülhető és szabálytalan.

A valószínűségi előrejelzések megvalósításának másik módja a kimenet folyamatos valószínűségi eloszlásként történő modellezése korlátozott számú paraméterrel (például Gauss- vagy Gamma-eloszlás), és a paraméterek előrejelzése. Ez a megközelítés nagyon nagy felbontású és szabályos képet ad az eloszlásról, de túl merev ahhoz, hogy illeszkedjen a megszerzett yardok valódi eloszlásához, amely multimodális és nehéz farkú.

Mindkét módszer legjobb kihasználása érdekében használjuk Összeillesztett Binned-Pareto eloszlás (SBP), amelynek rekeszek vannak a terjesztés középpontjában, ahol sok adat áll rendelkezésre, és Általánosított Pareto-eloszlás (GPD) mindkét végén, ahol ritka, de fontos események történhetnek, például egy touchdown. A GPD-nek két paramétere van: az egyik a skála és a másik a farok nehézsége, amint az a következő grafikonon látható (forrás: Wikipédia).

Ha a GPD-t a binned eloszlással (lásd a következő bal oldali grafikont) mindkét oldalon összeillesztjük, a következő SBP-t kapjuk a jobb oldalon. Az alsó és felső küszöb, ahol az illesztés megtörténik, hiperparaméterek.

Tárolt és SPB disztribúciók

Kiindulási alapként azt a modellt használtuk, amelyik megnyerte NFL Big Data Bowl verseny a Kaggle-n. Ez a modell CNN-rétegeket használ a jellemzők kinyerésére az előkészített adatokból, és az eredményt „1 yard per bin” osztályozási problémaként jósolja meg. Modellünk esetében megtartottuk a jellemzőkivonási rétegeket az alapvonaltól, és csak az utolsó réteget módosítottuk úgy, hogy SBP-paramétereket adjon ki az egyes tárolókra vonatkozó valószínűségek helyett, amint az a következő ábrán látható (a kép a bejegyzésből szerkesztve 1. helyezett megoldás Az Állatkert).

Modellarchitektúra

által biztosított SBP disztribúciót használtuk GluonTS. A GluonTS egy Python-csomag valószínűségi idősor-modellezéshez, de az SBP-eloszlás nem specifikus az idősorokra, ezért újra tudtuk használni a regresszióhoz. A GluonTS SBP használatával kapcsolatos további információkért tekintse meg a következő bemutatót jegyzetfüzet.

A modelleket a 2018-as, 2019-es és 2020-as szezonban képezték ki és keresztvalidálták, a 2021-es szezonban pedig tesztelték őket. A keresztellenőrzés során a kiszivárgás elkerülése érdekében ugyanabból a játékból az összes játékot ugyanabba a foldba csoportosítottuk.

Az értékeléshez megtartottuk a Kaggle versenyen használt mérőszámot, a folyamatos rangsorolt valószínűségi pontszám (CRPS), amely a kiugró értékekre robusztusabb log-likelihood alternatívájának tekinthető. Mi is használtuk a Pearson korrelációs együttható és a RMSE mint általános és értelmezhető pontossági mérőszámok. Továbbá megvizsgáltuk az érintés valószínűségét és a valószínűségi diagramokat a kalibráció értékeléséhez.

A modellt a CRPS veszteség felhasználásával képezték ki Sztochasztikus súlyátlagolás és korai megállás.

A kimeneti elosztások bindált részének szabálytalanságának kezelésére két technikát alkalmaztunk:

Egy simasági büntetés, amely arányos a két egymást követő rekesz közötti különbség négyzetével
A keresztellenőrzés során betanított modellek összeállítása

A modell teljesítményének eredményei

Minden adatkészletre rácskeresést végeztünk a következő lehetőségek között:

Valószínűségi modellek
- Az alapvonal yardonként egy valószínűség volt
- Az SBP yardonként egy valószínűség volt a központban, az általánosított SBP a farokban
Eloszlás simítás
- Nincs simítás (simasági büntetés = 0)
- Simasági büntetés = 5
- Simasági büntetés = 10
Képzési és következtetési eljárás
- 10 hajtás keresztellenőrzés és együttes következtetés (k10)
- Képzés a vonaton és érvényesítési adatok 10 vagy 20 korszakra vonatkozóan

Ezután megvizsgáltuk az öt legjobb modell mutatóit a CRPS szerint rendezve (az alacsonyabb, annál jobb).

A kickoff adatok esetében az SBP modell enyhén túlteljesít a CRPS tekintetében, de ami még fontosabb, jobban megbecsüli a touchdown valószínűségét (a valódi valószínűség 0.80% a tesztkészletben). Látjuk, hogy a legjobb modellek 10 hajtást (k10) használnak, és nincs simasági büntetés, amint az a következő táblázatban látható.

Képzések	Modell	Simaság	CRPS	RMSE	CORR %	P(touchdown)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	kiindulási	0	4.074	9.62	47.585	0.306
k10	kiindulási	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	kiindulási	10	4.08	9.621	47.519	0.265

A megfigyelt gyakoriságok és a megjósolt valószínűségek alábbi diagramja a legjobb modellünk jó kalibrálását jelzi, a két eloszlás közötti RMSE 0.27. Figyeljük meg a nagy yardage (például 100) előfordulásait, amelyek a valódi (kék) empirikus eloszlás végében fordulnak elő, és amelyek valószínűségét az SBP jobban megragadja, mint az alapmódszer.

Kickoff megfigyelt gyakoriságokat és előre jelzett valószínűségi eloszlást

A pontadatok esetében az alapvonal felülmúlja az SBP-t, talán azért, mert az extrém yardage-ok farka kevesebb realizációval rendelkezik. Ezért jobb kompromisszum a 0–10 yardos csúcsok közötti modalitás rögzítése; és a kickoff adatokkal ellentétben a legjobb modell simasági büntetést alkalmaz. Az alábbi táblázat összefoglalja megállapításainkat.

Képzések	Modell	Simaság	CRPS	RMSE	CORR %	P(touchdown)%
k10	kiindulási	5	3.961	8.313	35.227	0.547
k10	kiindulási	0	3.972	8.346	34.227	0.579
k10	kiindulási	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

A megfigyelt frekvenciák (kék színnel) és a becsült valószínűségek következő diagramja a két legjobb pontmodellhez azt jelzi, hogy a nem simított modell (narancssárga színben) valamivel jobban kalibrált, mint a simított modell (zöld színnel), és összességében jobb választás lehet.

Igaz és előre jelzett valószínűségek beírása

Következtetés

Ebben a bejegyzésben megmutattuk, hogyan lehet prediktív modelleket felépíteni zsírfarkú adateloszlással. A GluonTS-ben megvalósított Spliced Binned-Pareto disztribúciót használtuk, amely robusztusan képes modellezni az ilyen zsíros eloszlásokat. Ezt a technikát használtuk a punt és kickoff return modellek felépítésére. Ezt a megoldást hasonló felhasználási esetekre is alkalmazhatjuk, ahol nagyon kevés esemény szerepel az adatokban, de ezek az események jelentős hatással vannak a modellek általános teljesítményére.

Ha segítségre van szüksége az ML használatának felgyorsításában termékeiben és szolgáltatásaiban, kérjük, forduljon a Amazon ML Solutions Lab program.

A szerzőkről

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Tesfagabir Meharizghi adattudós a Amazon ML Solutions Lab ahol segít az AWS ügyfeleinek különböző iparágakban, például az egészségügyben és az élettudományokban, a gyártásban, az autóiparban, valamint a sportban és a médiában, hogy felgyorsítsák a gépi tanulás és az AWS felhőszolgáltatások használatát üzleti kihívásaik megoldásában.

Marc van Oudheusden az Amazon Web Services Amazon ML Solutions Lab csapatának vezető adattudósa. Az AWS-ügyfelekkel együttműködve megoldja az üzleti problémákat mesterséges intelligencia és gépi tanulás segítségével. Munkán kívül megtalálhatja őt a tengerparton, a gyerekeivel játszik, szörfözik vagy kiteszörföz.

Panpan Xu vezető alkalmazott tudós és menedzser az Amazon ML Solutions Labnál az AWS-nél. Gépi tanulási algoritmusok kutatásán és fejlesztésén dolgozik nagy hatású ügyfélalkalmazásokhoz számos ipari ágazatban, hogy felgyorsítsa az AI és a felhő alkalmazását. Kutatási területe a modell értelmezhetősége, az ok-okozati elemzés, a humán in-the-loop AI és az interaktív adatvizualizáció.

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Kyeong Hoon (Jonathan) Jung a National Football League vezető szoftvermérnöke. Az elmúlt hét évben a Next Gen Stats csapatánál dolgozott, és segített kiépíteni a platformot a nyers adatok streamelésétől, az adatok feldolgozására szolgáló mikroszolgáltatások kiépítésén át a feldolgozott adatokat feltáró API-k létrehozásáig. Együttműködött az Amazon Machine Learning Solutions Laboratóriummal, hogy tiszta adatokat biztosítson számukra a munkához, valamint tartományi ismereteket biztosítson magáról az adatokról. Munkán kívül szeret kerékpározni Los Angelesben és túrázni a Sierrasban.

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Michael Chi vezető technológiai igazgató, aki a National Football League Next Gen Stats és Data Engineering részlegét felügyeli. Matematikából és számítástechnikából szerzett diplomát az Illinoisi Egyetemen, Urbana Champaignben. Michael először 2007-ben csatlakozott az NFL-hez, és elsősorban a technológiára és a futballstatisztikák platformjaira összpontosított. Szabadidejében szívesen tölt időt a családjával a szabadban.

Mike Band a National Football League-nél a következő generációs statisztikák kutatási és elemzési részlegének vezető menedzsere. Amióta 2018-ban csatlakozott a csapathoz, ő felel az ötletelésért, a fejlesztésért és a játékoskövetési adatokból származó kulcsfontosságú statisztikák és meglátások kommunikálásáért a rajongók, az NFL közvetítő partnerei és a 32 klub számára egyaránt. Mike rengeteg tudást és tapasztalatot hoz a csapatba a Chicagói Egyetemen szerzett analitikus mesterdiplomával, a Floridai Egyetemen sportmenedzseri diplomával, valamint a Minnesota Vikings felderítő osztályán és a toborzási osztályon szerzett tapasztalattal. a Florida Gator Football.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Időbélyeg: Február 2, 2023

Időbélyeg: 5. április 2022.

Újra kiadta Platón

Az Amazon SageMaker Studio alkalmazásban kiszolgáló nélküli AWS Glue interaktív munkamenetek segítségével készítsen elő adatokat

Képbővítési folyamat az Amazon Lookout for Vision számára

Engedélyezze a látássérültek számára a dokumentumok meghallgatását az Amazon Textract és az Amazon Polly segítségével

Integrálja a ServiceNow-t az Amazon Lex chatbottal a jegyfeldolgozáshoz

AWS Cloud technológia a szív-rendellenességek közel valós idejű észleléséhez hordható eszközökről származó adatok felhasználásával

Szintetikus adatok létrehozása az AWS számítógépes látási csővezetékeihez

Testreszabhatja az Amazon SageMaker XGBoost algoritmus tárolóját

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók