Predict Football Punt And Kickoff Return Yards With Fat-tailed Distribution Using GluonTS

Ponovno objavil Platon

Spremljevalci: 0

Danes NFL nadaljuje svojo pot k povečanju števila statističnih podatkov, ki jih zagotavlja Statistična platforma naslednje generacije vsem 32 ekipam in navijačem. Z napredno analitiko, ki izhaja iz strojnega učenja (ML), NFL ustvarja nove načine za količinsko opredelitev nogometa in navijačem zagotavlja orodja, potrebna za izboljšanje njihovega znanja o igre v igri nogometa. Za sezono 2022 si je NFL prizadeval izkoristiti podatke o sledenju igralcem in nove napredne analitične tehnike za boljše razumevanje posebnih ekip.

Cilj projekta je bil napovedati, koliko jardov bi povratnik pridobil pri igri s puntom ali začetnim udarcem. Eden od izzivov pri izdelavi napovednih modelov za vračanje udarcev in začetni udarec je razpoložljivost zelo redkih dogodkov – kot so touchdowni –, ki imajo pomemben pomen v dinamiki igre. Porazdelitev podatkov z debelimi repi je pogosta v aplikacijah v resničnem svetu, kjer imajo redki dogodki pomemben vpliv na splošno delovanje modelov. Uporaba robustne metode za natančno modeliranje porazdelitve v ekstremnih dogodkih je ključnega pomena za boljšo splošno učinkovitost.

V tej objavi prikazujemo, kako uporabiti spojeno Binned-Paretovo distribucijo, implementirano v GluonTS, za robustno modeliranje takšnih distribucij z debelim repom.

Najprej opišemo uporabljeni nabor podatkov. Nato predstavimo predobdelavo podatkov in druge metode transformacije, ki se uporabljajo za nabor podatkov. Nato pojasnimo podrobnosti metodologije ML in postopkov usposabljanja modela. Na koncu predstavljamo rezultate delovanja modela.

Podatkovni niz

V tej objavi smo uporabili dva nabora podatkov za izgradnjo ločenih modelov za povratne točke in začetni udarec. Podatki o sledenju igralcu vsebujejo igralčev položaj, smer, pospešek in drugo (v koordinatah x,y). Na voljo je približno 3,000 oziroma 4,000 iger iz štirih sezon lige NFL (2018–2021) za igre s puntom oziroma začetni udarec. Poleg tega je v naborih podatkov zelo malo dotikov, povezanih s puntom in začetnim udarcem – le 0.23 % oziroma 0.8 %. Porazdelitev podatkov za punt in kickoff je različna. Na primer, dejanska porazdelitev jardov za začetni udarec in udarce je podobna, vendar premaknjena, kot je prikazano na naslednji sliki.

Porazdelitev povratnih udarcev in začetni udarec

Predobdelava podatkov in inženiring funkcij

Najprej so bili podatki o sledenju filtrirani samo za podatke, povezane z udarci in začetni udarci. Podatki o igralcu so bili uporabljeni za izpeljavo funkcij za razvoj modela:

X – Položaj igralca vzdolž dolge osi igrišča
Y – Položaj igralca vzdolž kratke osi igrišča
S – Hitrost v jardih/sekundo; zamenjano z Dis*10, da je bolj natančno (Dis je razdalja v zadnjih 0.1 sekunde)
Tebi – Kot gibanja igralca (stopinje)

Iz prejšnjih podatkov je bila vsaka igra pretvorjena v 10X11X14 podatkov z 10 ofenzivnimi igralci (brez nosilca žoge), 11 branilci in 14 izpeljanimi funkcijami:

sX – x hitrost igralca
sY – y hitrost igralca
s – Hitrost igralca
aX – x pospešek igralca
aY – y pospešek igralca
relX – x razdalja igralca glede na nosilca žogice
relY – y razdalja igralca glede na nosilca žogice
relSx – x hitrost igralca glede na nosilca žogice
relSy – y hitrost igralca glede na nosilca žogice
relDist – Evklidska razdalja igralca glede na nosilca žogice
oppX – x razdalja napadalca glede na obrambnega igralca
oppY – y razdalja napadalca glede na obrambnega igralca
oppSx –x hitrost napadalca glede na obrambnega igralca
oppSy – y hitrost napadalca glede na obrambnega igralca

Da bi povečali podatke in upoštevali položaje desno in levo, so bile vrednosti položaja X in Y prav tako zrcaljene, da upoštevajo položaje desnega in levega polja. Predhodna obdelava podatkov in inženiring funkcij je bil prilagojen zmagovalcu NFL Big Data Bowl tekmovanje na Kaggle.

Metodologija ML in usposabljanje za modele

Ker nas zanimajo vsi možni izidi igre, vključno z verjetnostjo dotika, ne moremo preprosto napovedati povprečnih pridobljenih jardov kot regresijski problem. Napovedati moramo celotno verjetnostno porazdelitev vseh možnih jardov, zato smo problem oblikovali kot verjetnostno napoved.

Eden od načinov za implementacijo verjetnostnih napovedi je dodelitev pridobljenih jardov večim razvrstitvam (kot so manj kot 0, od 0–1, od 1–2, …, od 14–15, več kot 15) in predvidevanje zaboja kot klasifikacije problem. Slaba stran tega pristopa je, da želimo, da imajo majhni zaboji sliko porazdelitve v visoki ločljivosti, vendar majhni zaboji pomenijo manj podatkovnih točk na zaboj in naša porazdelitev, zlasti repi, so lahko slabo ocenjeni in nepravilni.

Drug način za implementacijo verjetnostnih napovedi je modeliranje izhoda kot zvezne verjetnostne porazdelitve z omejenim številom parametrov (na primer Gaussova ali gama porazdelitev) in napovedovanje parametrov. Ta pristop daje zelo visoko definicijo in pravilno sliko porazdelitve, vendar je preveč tog, da bi ustrezal resnični porazdelitvi pridobljenih jardov, ki je multimodalna in močno zaokrožena.

Da bi kar najbolje izkoristili obe metodi, uporabljamo Spojena Binned-Paretova porazdelitev (SBP), ki ima predale za središče distribucije, kjer je na voljo veliko podatkov, in Posplošena Paretova porazdelitev (GPD) na obeh koncih, kjer se lahko zgodijo redki, a pomembni dogodki, kot je touchdown. GPD ima dva parametra: enega za obseg in enega za težo repa, kot je razvidno iz naslednjega grafa (vir: Wikipedia).

S spajanjem GPD z razdeljeno porazdelitvijo (glejte naslednji levi graf) na obeh straneh, dobimo naslednji SBP na desni. Spodnji in zgornji prag, kjer se izvaja spajanje, sta hiperparametra.

Binned in SPB distribucije

Kot izhodišče smo uporabili model, ki je zmagal NFL Big Data Bowl tekmovanje na Kaggle. Ta model uporablja plasti CNN za ekstrahiranje funkcij iz pripravljenih podatkov in napoveduje rezultat kot problem klasifikacije »1 yard per bin«. Za naš model smo ohranili plasti ekstrakcije funkcij iz osnovne črte in spremenili samo zadnjo plast, da izpiše parametre SBP namesto verjetnosti za vsak bin, kot je prikazano na naslednji sliki (slika, urejena iz objave 1. mesto rešitev Živalski vrt).

Modelna arhitektura

Uporabili smo distribucijo SBP, ki jo je zagotovil GluonTS. GluonTS je paket Python za verjetnostno modeliranje časovnih vrst, vendar distribucija SBP ni specifična za časovne vrste, zato smo jo lahko preuredili za regresijo. Za več informacij o uporabi GluonTS SBP si oglejte naslednjo predstavitev prenosnik.

Modeli so bili usposobljeni in navzkrižno potrjeni v sezonah 2018, 2019 in 2020 ter preizkušeni v sezoni 2021. Da bi se izognili uhajanju med navzkrižnim preverjanjem, smo vsa igranja iz iste igre združili v isti del.

Za ocenjevanje smo ohranili metriko, uporabljeno v tekmovanju Kaggle, the zvezna verjetnostna ocena (CRPS), ki se lahko obravnava kot alternativa log-verjetnosti, ki je bolj robustna za izstopajoče vrednosti. Uporabili smo tudi Pearsonov korelacijski koeficient in RMSE kot splošne in razložljive metrike natančnosti. Poleg tega smo preučili verjetnost dotika in krivulje verjetnosti za oceno kalibracije.

Model je bil usposobljen za izgubo CRPS z uporabo Stohastično povprečevanje teže in zgodnje prenehanje.

Za obravnavo nepravilnosti razdeljenega dela izhodnih distribucij smo uporabili dve tehniki:

Kazen gladkosti, ki je sorazmerna s kvadratom razlike med dvema zaporednima binoma
Sestavljanje modelov, usposobljenih med navzkrižno validacijo

Rezultati delovanja modela

Za vsak nabor podatkov smo izvedli iskanje po mreži po naslednjih možnostih:

Probabilistični modeli
- Izhodišče je bila ena verjetnost na jard
- SBP je bila ena verjetnost na dvorišče v sredini, posplošen SBP v repih
Glajenje porazdelitve
- Brez glajenja (kazen za gladkost = 0)
- Kazen za gladkost = 5
- Kazen za gladkost = 10
Postopek usposabljanja in sklepanja
- 10-kratna navzkrižna validacija in ansambelsko sklepanje (k10)
- Usposabljanje na vlaku in validacijski podatki za 10 epoh ali 20 epoh

Nato smo si ogledali meritve za prvih pet modelov, razvrščenih po CRPS (nižje je boljše).

Pri začetnih podatkih je model SBP nekoliko boljši v smislu CRPS, a kar je še pomembneje, bolje oceni verjetnost dotika (resnična verjetnost je 0.80 % v testnem nizu). Vidimo, da najboljši modeli uporabljajo 10-gubno sestavo (k10) in brez kazni za gladkost, kot je prikazano v naslednji tabeli.

usposabljanje	Model	Gladkost	CRPS	RMSE	CORR %	P (touchdown) %
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Izhodišče	0	4.074	9.62	47.585	0.306
k10	Izhodišče	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Izhodišče	10	4.08	9.621	47.519	0.265

Naslednji graf opazovanih frekvenc in predvidenih verjetnosti kaže na dobro kalibracijo našega najboljšega modela z RMSE 0.27 med obema porazdelitvama. Upoštevajte primere velikih jardov (na primer 100), ki se pojavijo na repu prave (modre) empirične porazdelitve, katerih verjetnosti so bolj zajete s SBP kot z osnovno metodo.

Začetne opazovane frekvence in predvidena porazdelitev verjetnosti

Pri podatkih o točkah izhodiščna linija prekaša SBP, morda zato, ker imajo repi ekstremnih jardov manj realizacij. Zato je boljši kompromis zajeti modalnost med vrhovi 0–10 jardov; in v nasprotju z začetnimi podatki najboljši model uporablja kazen gladkosti. Naslednja tabela povzema naše ugotovitve.

usposabljanje	Model	Gladkost	CRPS	RMSE	CORR %	P (touchdown) %
k10	Izhodišče	5	3.961	8.313	35.227	0.547
k10	Izhodišče	0	3.972	8.346	34.227	0.579
k10	Izhodišče	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Naslednji prikaz opazovanih frekvenc (v modri barvi) in predvidenih verjetnosti za dva najboljša modela punta kaže, da je nezglajen model (v oranžni barvi) nekoliko bolje umerjen kot zglajen model (v zeleni barvi) in je lahko na splošno boljša izbira.

Punt prave in predvidene verjetnosti

zaključek

V tej objavi smo pokazali, kako zgraditi napovedne modele s porazdelitvijo podatkov z debelim repom. Uporabili smo Spliced Binned-Pareto distribucijo, implementirano v GluonTS, ki lahko robustno modelira takšne porazdelitve z debelim repom. To tehniko smo uporabili za izgradnjo modelov za povratne točke in začetni udarec. To rešitev lahko uporabimo za podobne primere uporabe, kjer je v podatkih zelo malo dogodkov, vendar ti dogodki pomembno vplivajo na splošno delovanje modelov.

Če želite pomoč pri pospeševanju uporabe ML v svojih izdelkih in storitvah, se obrnite na Amazon ML Solutions Lab Program.

O avtorjih

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Tesfagabir Meharizghi je podatkovni znanstvenik pri Amazon ML Solutions Lab kjer strankam AWS v različnih panogah, kot so zdravstvo in znanosti o življenju, proizvodnja, avtomobilizem ter šport in mediji, pomaga pospešiti njihovo uporabo strojnega učenja in storitev v oblaku AWS za reševanje njihovih poslovnih izzivov.

Marc van Oudheusden je višji podatkovni znanstvenik v skupini Amazon ML Solutions Lab pri Amazon Web Services. S strankami AWS sodeluje pri reševanju poslovnih problemov z umetno inteligenco in strojnim učenjem. Izven službe ga lahko najdete na plaži, se igra s svojimi otroki, deska ali kajta.

Panpan Xu je višji aplikativni znanstvenik in vodja Amazon ML Solutions Lab pri AWS. Ukvarja se z raziskavami in razvojem algoritmov strojnega učenja za aplikacije za stranke z velikim vplivom v različnih industrijskih vertikalah, da bi pospešila njihovo umetno inteligenco in sprejemanje v oblaku. Njen raziskovalni interes vključuje interpretabilnost modela, vzročno analizo, umetno inteligenco človeka v zanki in interaktivno vizualizacijo podatkov.

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Kyeong Hoon (Jonathan) Jung je višji programski inženir pri Nacionalni nogometni ligi. Z ekipo Next Gen Stats je sodeloval zadnjih sedem let in je pomagal zgraditi platformo od pretakanja neobdelanih podatkov, gradnje mikrostoritev za obdelavo podatkov do gradnje API-jev, ki izpostavljajo obdelane podatke. Sodeloval je z Amazon Machine Learning Solutions Lab pri zagotavljanju čistih podatkov, s katerimi lahko delajo, ter zagotavljanju znanja o domeni samih podatkov. Zunaj službe uživa v kolesarjenju v Los Angelesu in pohodništvu v Sierrah.

Predict football punt and kickoff return yards with fat-tailed distribution using GluonTS PlatoBlockchain Data Intelligence. Vertical Search. Ai. Michael Chi je višji direktor tehnologije, ki nadzoruje statistiko naslednje generacije in podatkovni inženiring v nacionalni nogometni ligi. Diplomiral je iz matematike in računalništva na Univerzi Illinois v Urbani Champaign. Michael se je prvič pridružil ligi NFL leta 2007 in se osredotočal predvsem na tehnologijo in platforme za nogometno statistiko. V prostem času z družino rad preživlja čas na prostem.

Mike Band je višji vodja raziskav in analitike za statistiko naslednje generacije pri Nacionalni nogometni ligi. Odkar se je leta 2018 pridružil ekipi, je odgovoren za zasnovo, razvoj in sporočanje ključnih statistik in vpogledov, pridobljenih iz podatkov o sledenju igralcem, za navijače, partnerje prenosov lige NFL in 32 klubov. Mike v ekipo prinaša bogato znanje in izkušnje z magisterijem iz analitike na Univerzi v Chicagu, diplomo iz športnega menedžmenta na Univerzi na Floridi ter izkušnjami v skavtskem oddelku Minnesota Vikings in oddelku za zaposlovanje Florida Gator Football.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Časovni žig: Februar 2, 2023

Časovni žig: April 5, 2022

Ponovno objavil Platon

Pripravite podatke v velikem obsegu v Amazon SageMaker Studio z uporabo brezstrežniških interaktivnih sej AWS Glue

Cev za povečanje slike za Amazon Lookout for Vision

Omogočite slabovidnim, da poslušajo dokumente z uporabo Amazon Texttract in Amazon Polly

Integrirajte ServiceNow s klepetalnim botom Amazon Lex za obdelavo vstopnic

Tehnologija AWS Cloud za odkrivanje srčnih anomalij v skoraj realnem času z uporabo podatkov iz nosljivih naprav

Ustvarite sintetične podatke za cevovode računalniškega vida na AWS

Prilagodite vsebnik algoritma Amazon SageMaker XGBoost

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun