Danes NFL nadaljuje svojo pot k povečanju števila statističnih podatkov, ki jih zagotavlja Statistična platforma naslednje generacije vsem 32 ekipam in navijačem. Z napredno analitiko, ki izhaja iz strojnega učenja (ML), NFL ustvarja nove načine za količinsko opredelitev nogometa in navijačem zagotavlja orodja, potrebna za izboljšanje njihovega znanja o igre v igri nogometa. Za sezono 2022 si je NFL prizadeval izkoristiti podatke o sledenju igralcem in nove napredne analitične tehnike za boljše razumevanje posebnih ekip.
Cilj projekta je bil napovedati, koliko jardov bi povratnik pridobil pri igri s puntom ali začetnim udarcem. Eden od izzivov pri izdelavi napovednih modelov za vračanje udarcev in začetni udarec je razpoložljivost zelo redkih dogodkov – kot so touchdowni –, ki imajo pomemben pomen v dinamiki igre. Porazdelitev podatkov z debelimi repi je pogosta v aplikacijah v resničnem svetu, kjer imajo redki dogodki pomemben vpliv na splošno delovanje modelov. Uporaba robustne metode za natančno modeliranje porazdelitve v ekstremnih dogodkih je ključnega pomena za boljšo splošno učinkovitost.
V tej objavi prikazujemo, kako uporabiti spojeno Binned-Paretovo distribucijo, implementirano v GluonTS, za robustno modeliranje takšnih distribucij z debelim repom.
Najprej opišemo uporabljeni nabor podatkov. Nato predstavimo predobdelavo podatkov in druge metode transformacije, ki se uporabljajo za nabor podatkov. Nato pojasnimo podrobnosti metodologije ML in postopkov usposabljanja modela. Na koncu predstavljamo rezultate delovanja modela.
Podatkovni niz
V tej objavi smo uporabili dva nabora podatkov za izgradnjo ločenih modelov za povratne točke in začetni udarec. Podatki o sledenju igralcu vsebujejo igralčev položaj, smer, pospešek in drugo (v koordinatah x,y). Na voljo je približno 3,000 oziroma 4,000 iger iz štirih sezon lige NFL (2018–2021) za igre s puntom oziroma začetni udarec. Poleg tega je v naborih podatkov zelo malo dotikov, povezanih s puntom in začetnim udarcem – le 0.23 % oziroma 0.8 %. Porazdelitev podatkov za punt in kickoff je različna. Na primer, dejanska porazdelitev jardov za začetni udarec in udarce je podobna, vendar premaknjena, kot je prikazano na naslednji sliki.
Predobdelava podatkov in inženiring funkcij
Najprej so bili podatki o sledenju filtrirani samo za podatke, povezane z udarci in začetni udarci. Podatki o igralcu so bili uporabljeni za izpeljavo funkcij za razvoj modela:
- X – Položaj igralca vzdolž dolge osi igrišča
- Y – Položaj igralca vzdolž kratke osi igrišča
- S – Hitrost v jardih/sekundo; zamenjano z Dis*10, da je bolj natančno (Dis je razdalja v zadnjih 0.1 sekunde)
- Tebi – Kot gibanja igralca (stopinje)
Iz prejšnjih podatkov je bila vsaka igra pretvorjena v 10X11X14 podatkov z 10 ofenzivnimi igralci (brez nosilca žoge), 11 branilci in 14 izpeljanimi funkcijami:
- sX – x hitrost igralca
- sY – y hitrost igralca
- s – Hitrost igralca
- aX – x pospešek igralca
- aY – y pospešek igralca
- relX – x razdalja igralca glede na nosilca žogice
- relY – y razdalja igralca glede na nosilca žogice
- relSx – x hitrost igralca glede na nosilca žogice
- relSy – y hitrost igralca glede na nosilca žogice
- relDist – Evklidska razdalja igralca glede na nosilca žogice
- oppX – x razdalja napadalca glede na obrambnega igralca
- oppY – y razdalja napadalca glede na obrambnega igralca
- oppSx –x hitrost napadalca glede na obrambnega igralca
- oppSy – y hitrost napadalca glede na obrambnega igralca
Da bi povečali podatke in upoštevali položaje desno in levo, so bile vrednosti položaja X in Y prav tako zrcaljene, da upoštevajo položaje desnega in levega polja. Predhodna obdelava podatkov in inženiring funkcij je bil prilagojen zmagovalcu NFL Big Data Bowl tekmovanje na Kaggle.
Metodologija ML in usposabljanje za modele
Ker nas zanimajo vsi možni izidi igre, vključno z verjetnostjo dotika, ne moremo preprosto napovedati povprečnih pridobljenih jardov kot regresijski problem. Napovedati moramo celotno verjetnostno porazdelitev vseh možnih jardov, zato smo problem oblikovali kot verjetnostno napoved.
Eden od načinov za implementacijo verjetnostnih napovedi je dodelitev pridobljenih jardov večim razvrstitvam (kot so manj kot 0, od 0–1, od 1–2, …, od 14–15, več kot 15) in predvidevanje zaboja kot klasifikacije problem. Slaba stran tega pristopa je, da želimo, da imajo majhni zaboji sliko porazdelitve v visoki ločljivosti, vendar majhni zaboji pomenijo manj podatkovnih točk na zaboj in naša porazdelitev, zlasti repi, so lahko slabo ocenjeni in nepravilni.
Drug način za implementacijo verjetnostnih napovedi je modeliranje izhoda kot zvezne verjetnostne porazdelitve z omejenim številom parametrov (na primer Gaussova ali gama porazdelitev) in napovedovanje parametrov. Ta pristop daje zelo visoko definicijo in pravilno sliko porazdelitve, vendar je preveč tog, da bi ustrezal resnični porazdelitvi pridobljenih jardov, ki je multimodalna in močno zaokrožena.
Da bi kar najbolje izkoristili obe metodi, uporabljamo Spojena Binned-Paretova porazdelitev (SBP), ki ima predale za središče distribucije, kjer je na voljo veliko podatkov, in Posplošena Paretova porazdelitev (GPD) na obeh koncih, kjer se lahko zgodijo redki, a pomembni dogodki, kot je touchdown. GPD ima dva parametra: enega za obseg in enega za težo repa, kot je razvidno iz naslednjega grafa (vir: Wikipedia).
S spajanjem GPD z razdeljeno porazdelitvijo (glejte naslednji levi graf) na obeh straneh, dobimo naslednji SBP na desni. Spodnji in zgornji prag, kjer se izvaja spajanje, sta hiperparametra.
Kot izhodišče smo uporabili model, ki je zmagal NFL Big Data Bowl tekmovanje na Kaggle. Ta model uporablja plasti CNN za ekstrahiranje funkcij iz pripravljenih podatkov in napoveduje rezultat kot problem klasifikacije »1 yard per bin«. Za naš model smo ohranili plasti ekstrakcije funkcij iz osnovne črte in spremenili samo zadnjo plast, da izpiše parametre SBP namesto verjetnosti za vsak bin, kot je prikazano na naslednji sliki (slika, urejena iz objave 1. mesto rešitev Živalski vrt).
Uporabili smo distribucijo SBP, ki jo je zagotovil GluonTS. GluonTS je paket Python za verjetnostno modeliranje časovnih vrst, vendar distribucija SBP ni specifična za časovne vrste, zato smo jo lahko preuredili za regresijo. Za več informacij o uporabi GluonTS SBP si oglejte naslednjo predstavitev prenosnik.
Modeli so bili usposobljeni in navzkrižno potrjeni v sezonah 2018, 2019 in 2020 ter preizkušeni v sezoni 2021. Da bi se izognili uhajanju med navzkrižnim preverjanjem, smo vsa igranja iz iste igre združili v isti del.
Za ocenjevanje smo ohranili metriko, uporabljeno v tekmovanju Kaggle, the zvezna verjetnostna ocena (CRPS), ki se lahko obravnava kot alternativa log-verjetnosti, ki je bolj robustna za izstopajoče vrednosti. Uporabili smo tudi Pearsonov korelacijski koeficient in RMSE kot splošne in razložljive metrike natančnosti. Poleg tega smo preučili verjetnost dotika in krivulje verjetnosti za oceno kalibracije.
Model je bil usposobljen za izgubo CRPS z uporabo Stohastično povprečevanje teže in zgodnje prenehanje.
Za obravnavo nepravilnosti razdeljenega dela izhodnih distribucij smo uporabili dve tehniki:
- Kazen gladkosti, ki je sorazmerna s kvadratom razlike med dvema zaporednima binoma
- Sestavljanje modelov, usposobljenih med navzkrižno validacijo
Rezultati delovanja modela
Za vsak nabor podatkov smo izvedli iskanje po mreži po naslednjih možnostih:
- Probabilistični modeli
- Izhodišče je bila ena verjetnost na jard
- SBP je bila ena verjetnost na dvorišče v sredini, posplošen SBP v repih
- Glajenje porazdelitve
- Brez glajenja (kazen za gladkost = 0)
- Kazen za gladkost = 5
- Kazen za gladkost = 10
- Postopek usposabljanja in sklepanja
- 10-kratna navzkrižna validacija in ansambelsko sklepanje (k10)
- Usposabljanje na vlaku in validacijski podatki za 10 epoh ali 20 epoh
Nato smo si ogledali meritve za prvih pet modelov, razvrščenih po CRPS (nižje je boljše).
Pri začetnih podatkih je model SBP nekoliko boljši v smislu CRPS, a kar je še pomembneje, bolje oceni verjetnost dotika (resnična verjetnost je 0.80 % v testnem nizu). Vidimo, da najboljši modeli uporabljajo 10-gubno sestavo (k10) in brez kazni za gladkost, kot je prikazano v naslednji tabeli.
usposabljanje | Model | Gladkost | CRPS | RMSE | CORR % | P (touchdown) % |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Izhodišče | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Izhodišče | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Izhodišče | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Naslednji graf opazovanih frekvenc in predvidenih verjetnosti kaže na dobro kalibracijo našega najboljšega modela z RMSE 0.27 med obema porazdelitvama. Upoštevajte primere velikih jardov (na primer 100), ki se pojavijo na repu prave (modre) empirične porazdelitve, katerih verjetnosti so bolj zajete s SBP kot z osnovno metodo.
Pri podatkih o točkah izhodiščna linija prekaša SBP, morda zato, ker imajo repi ekstremnih jardov manj realizacij. Zato je boljši kompromis zajeti modalnost med vrhovi 0–10 jardov; in v nasprotju z začetnimi podatki najboljši model uporablja kazen gladkosti. Naslednja tabela povzema naše ugotovitve.
usposabljanje | Model | Gladkost | CRPS | RMSE | CORR % | P (touchdown) % |
k10 | Izhodišče | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Izhodišče | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Izhodišče | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Naslednji prikaz opazovanih frekvenc (v modri barvi) in predvidenih verjetnosti za dva najboljša modela punta kaže, da je nezglajen model (v oranžni barvi) nekoliko bolje umerjen kot zglajen model (v zeleni barvi) in je lahko na splošno boljša izbira.
zaključek
V tej objavi smo pokazali, kako zgraditi napovedne modele s porazdelitvijo podatkov z debelim repom. Uporabili smo Spliced Binned-Pareto distribucijo, implementirano v GluonTS, ki lahko robustno modelira takšne porazdelitve z debelim repom. To tehniko smo uporabili za izgradnjo modelov za povratne točke in začetni udarec. To rešitev lahko uporabimo za podobne primere uporabe, kjer je v podatkih zelo malo dogodkov, vendar ti dogodki pomembno vplivajo na splošno delovanje modelov.
Če želite pomoč pri pospeševanju uporabe ML v svojih izdelkih in storitvah, se obrnite na Amazon ML Solutions Lab Program.
O avtorjih
Tesfagabir Meharizghi je podatkovni znanstvenik pri Amazon ML Solutions Lab kjer strankam AWS v različnih panogah, kot so zdravstvo in znanosti o življenju, proizvodnja, avtomobilizem ter šport in mediji, pomaga pospešiti njihovo uporabo strojnega učenja in storitev v oblaku AWS za reševanje njihovih poslovnih izzivov.
Marc van Oudheusden je višji podatkovni znanstvenik v skupini Amazon ML Solutions Lab pri Amazon Web Services. S strankami AWS sodeluje pri reševanju poslovnih problemov z umetno inteligenco in strojnim učenjem. Izven službe ga lahko najdete na plaži, se igra s svojimi otroki, deska ali kajta.
Panpan Xu je višji aplikativni znanstvenik in vodja Amazon ML Solutions Lab pri AWS. Ukvarja se z raziskavami in razvojem algoritmov strojnega učenja za aplikacije za stranke z velikim vplivom v različnih industrijskih vertikalah, da bi pospešila njihovo umetno inteligenco in sprejemanje v oblaku. Njen raziskovalni interes vključuje interpretabilnost modela, vzročno analizo, umetno inteligenco človeka v zanki in interaktivno vizualizacijo podatkov.
Kyeong Hoon (Jonathan) Jung je višji programski inženir pri Nacionalni nogometni ligi. Z ekipo Next Gen Stats je sodeloval zadnjih sedem let in je pomagal zgraditi platformo od pretakanja neobdelanih podatkov, gradnje mikrostoritev za obdelavo podatkov do gradnje API-jev, ki izpostavljajo obdelane podatke. Sodeloval je z Amazon Machine Learning Solutions Lab pri zagotavljanju čistih podatkov, s katerimi lahko delajo, ter zagotavljanju znanja o domeni samih podatkov. Zunaj službe uživa v kolesarjenju v Los Angelesu in pohodništvu v Sierrah.
Michael Chi je višji direktor tehnologije, ki nadzoruje statistiko naslednje generacije in podatkovni inženiring v nacionalni nogometni ligi. Diplomiral je iz matematike in računalništva na Univerzi Illinois v Urbani Champaign. Michael se je prvič pridružil ligi NFL leta 2007 in se osredotočal predvsem na tehnologijo in platforme za nogometno statistiko. V prostem času z družino rad preživlja čas na prostem.
Mike Band je višji vodja raziskav in analitike za statistiko naslednje generacije pri Nacionalni nogometni ligi. Odkar se je leta 2018 pridružil ekipi, je odgovoren za zasnovo, razvoj in sporočanje ključnih statistik in vpogledov, pridobljenih iz podatkov o sledenju igralcem, za navijače, partnerje prenosov lige NFL in 32 klubov. Mike v ekipo prinaša bogato znanje in izkušnje z magisterijem iz analitike na Univerzi v Chicagu, diplomo iz športnega menedžmenta na Univerzi na Floridi ter izkušnjami v skavtskem oddelku Minnesota Vikings in oddelku za zaposlovanje Florida Gator Football.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Sposobna
- O meni
- pospeši
- pospeševanje
- Račun
- natančnost
- natančna
- natančno
- čez
- Poleg tega
- Sprejetje
- napredno
- AI
- algoritmi
- vsi
- alternativa
- Amazon
- Strojno učenje Amazon
- Amazon ML Solutions Lab
- Amazon Web Services
- Analiza
- analitika
- in
- Angeles
- aplikacije
- uporabna
- Uporabi
- pristop
- Arhitektura
- okoli
- umetni
- Umetna inteligenca
- Umetna inteligenca in strojno učenje
- avtomobilska
- razpoložljivost
- Na voljo
- povprečno
- AWS
- Os
- žoga
- Izhodišče
- Beach
- ker
- BEST
- Boljše
- med
- Big
- Big Podatki
- Modra
- Obe strani
- Prinaša
- oddaja
- izgradnjo
- Building
- poslovni
- zajemanje
- primeri
- center
- izzivi
- Chicago
- Otroci
- izbira
- Razvrstitev
- Cloud
- sprejem v oblak
- storitev v oblaku
- klubi
- CNN
- sodeloval
- Skupno
- Komunikacija
- Tekmovanje
- računalnik
- Računalništvo
- zaporedna
- kontakt
- Vsebuje
- nadaljevati
- neprekinjeno
- nasprotno
- Korelacija
- Ustvarjanje
- ključnega pomena
- stranka
- Stranke, ki so
- datum
- podatkovne točke
- podatkovni znanstvenik
- vizualizacija podatkov
- nabor podatkov
- ponudba
- Branilci
- Defense
- Stopnja
- izkazati
- Oddelek
- Izpeljano
- opisati
- Podrobnosti
- Razvoj
- Razlika
- drugačen
- smer
- Direktor
- razdalja
- distribucija
- Distribucije
- domena
- slaba stran
- med
- dinamika
- vsak
- Zgodnje
- konča
- inženir
- Inženiring
- epohe
- zlasti
- ocenjeni
- ocene
- oceniti
- Ocena
- dogodki
- Primer
- izključuje
- izkušnje
- Pojasnite
- ekstrakt
- ekstremna
- družina
- ventilatorji
- Fat
- Feature
- Lastnosti
- Nekaj
- Polje
- Slika
- končno
- Najdi
- prva
- fit
- florida
- osredotočena
- po
- nogomet
- iz
- polno
- Poleg tega
- Gain
- zaslužek
- igra
- Gen
- splošno
- dobili
- daje
- Cilj
- dobro
- GPD
- graf
- Zelen
- Mreža
- se zgodi
- zdravstveno varstvo
- pomoč
- pomoč
- Pomaga
- visoka
- Kako
- Kako
- HTTPS
- Illinois
- slika
- vpliv
- izvajati
- izvajali
- Pomembnost
- Pomembno
- in
- vključuje
- Vključno
- Povečajte
- označuje
- industrijske
- industrij
- Podatki
- vpogledi
- Namesto
- Intelligence
- interaktivno
- obresti
- zainteresirani
- IT
- sam
- pridružil
- pridružil
- Potovanje
- Ključne
- znanje
- lab
- Zadnja
- plast
- plasti
- Liga
- učenje
- Vzvod
- življenje
- Life Sciences
- Limited
- Long
- Pogledal
- jih
- Los Angeles
- off
- Sklop
- stroj
- strojno učenje
- Znamka
- upravljanje
- upravitelj
- proizvodnja
- več
- poveljnika
- matematika
- mediji
- Metoda
- Metodologija
- Metode
- meritev
- Meritve
- Michael
- mikro storitve
- ML
- Model
- modeli
- spremembe
- več
- motion
- nacionalni
- Nimate
- Novo
- Naslednja
- naslednji gen
- NFL
- Številka
- pridobi
- žaljive
- ONE
- možnosti
- Oranžna
- Ostalo
- Rezultat
- na prostem
- Presega
- zunaj
- Splošni
- paket
- parametri
- del
- partnerji
- preteklosti
- performance
- mogoče
- slika
- Kraj
- platforma
- Platforme
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Predvajaj
- predvajalnik
- igralci
- igranje
- prosim
- točke
- Stališče
- pozicije
- mogoče
- Prispevek
- napovedati
- napovedano
- napoved
- Napovedi
- Napovedi
- pripravljeni
- predstaviti
- v prvi vrsti
- problem
- Težave
- Postopki
- Postopek
- Predelano
- Izdelki
- Program
- Projekt
- zagotavljajo
- če
- zagotavljanje
- Python
- uvrstitev
- REDKO
- Surovi
- resnični svet
- zaposlovanje
- redni
- povezane
- nadomesti
- Raziskave
- raziskave in razvoj
- odgovorna
- Rezultati
- vrnitev
- vrne
- toga
- robusten
- Enako
- Lestvica
- Znanost
- ZNANOSTI
- Znanstvenik
- Iskalnik
- Sezona
- sezone
- sekund
- višji
- ločena
- Serija
- Storitve
- nastavite
- sedem
- več
- Kratke Hlače
- pokazale
- Strani
- pomemben
- Podoben
- preprosto
- saj
- majhna
- So
- Software
- Software Engineer
- Rešitev
- rešitve
- SOLVE
- vir
- posebna
- specifična
- hitrost
- Poraba
- Šport
- Šport
- Na kvadrat
- Statistika
- statistika
- ustavljanje
- pretakanje
- taka
- miza
- skupina
- Skupine
- tehnike
- Tehnologija
- Pogoji
- Test
- O
- njihove
- zato
- čas
- Časovne serije
- do
- tudi
- orodja
- vrh
- Sledenje
- Vlak
- usposobljeni
- usposabljanje
- Preoblikovanje
- preoblikovati
- Res
- razumeli
- univerza
- University of Chicago
- uporaba
- potrjevanje
- Vrednote
- raznolikost
- različnih
- vertikale
- Vikingi
- vizualizacija
- načini
- Wealth
- web
- spletne storitve
- teža
- ki
- Wikipedia
- v
- Zmagali
- delo
- deluje
- deluje
- bi
- X
- let
- Vi
- Vaša rutina za
- zefirnet