Ennusta Football Punt ja Kickoff Return Yards Fat-tailed-jakaumalla GluonTS:n avulla

Julkaissut Platon

seuraajia: 0

Tänään NFL jatkaa matkaansa lisätäkseen tilastojen määrää Next Gen Stats Platform kaikille 32 joukkueelle ja faneille. Koneoppimisesta (ML) johdetun edistyneen analytiikan avulla NFL luo uusia tapoja mitata jalkapalloa ja tarjota faneille työkaluja, joita tarvitaan heidän tietämyksensä lisäämiseksi. pelit pelin sisällä jalkapallosta. Kaudella 2022 NFL pyrki hyödyntämään pelaajien seurantatietoja ja uusia edistyneitä analytiikkatekniikoita ymmärtääksesi paremmin erikoisryhmiä.

Projektin tavoitteena oli ennustaa, kuinka monta jaardia palaaja saavuttaa punt- tai kickoff-pelissä. Yksi haasteista, kun rakennetaan ennakoivia malleja punt- ja kickoff-tuottoihin, on erittäin harvinaisten tapahtumien – kuten touchdownien – saatavuus, joilla on merkittävä merkitys pelin dynamiikassa. Datan jakaminen rasvapyrstöillä on yleistä tosielämän sovelluksissa, joissa harvinaisilla tapahtumilla on merkittävä vaikutus mallien yleiseen suorituskykyyn. Vankan menetelmän käyttäminen ääritapahtumien jakautumisen tarkkaan mallintamiseen on ratkaisevan tärkeää paremman yleisen suorituskyvyn kannalta.

Tässä viestissä osoitamme kuinka käyttää GluonTS:ssä toteutettua Spliced Binned-Pareto -jakaumaa tällaisten rasvapäiden jakaumien mallintamiseen.

Kuvaamme ensin käytetyn tietojoukon. Seuraavaksi esittelemme aineistoon sovelletut tiedon esikäsittely- ja muut muunnosmenetelmät. Selitämme sitten ML-metodologian ja mallin koulutusmenettelyjen yksityiskohdat. Lopuksi esittelemme mallin suorituskykytulokset.

aineisto

Tässä viestissä käytimme kahta tietojoukkoa erillisten mallien rakentamiseen punt- ja kickoff-palauteille. Pelaajan seurantatiedot sisältävät pelaajan sijainnin, suunnan, kiihtyvyyden ja paljon muuta (x,y-koordinaateissa). Neljältä NFL-kaudelta (3,000–4,000) on noin 2018 2021 ja 0.23 0.8 peliä aloituspeleissä. Lisäksi tiedoissa on hyvin vähän punteihin ja kickoffiin liittyviä touchdowneja – vain XNUMX % ja XNUMX %. Punt- ja kickoff-tietojen jakautuminen on erilainen. Esimerkiksi aloituspotkujen ja lyöntien todellinen yardage-jakauma on samanlainen, mutta siirtynyt, kuten seuraavassa kuvassa näkyy.

Punts ja kickoff paluujaardeja

Tietojen esikäsittely ja ominaisuuksien suunnittelu

Ensin seurantatiedot suodatettiin vain pisteisiin ja kickoffin palautuksiin liittyville tiedoille. Pelaajatietoja käytettiin mallinkehityksen ominaisuuksien johtamiseen:

X – Pelaajan sijainti kentän pitkällä akselilla
Y – Pelaajan sijainti kentän lyhyellä akselilla
S – Nopeus jaardeina sekunnissa; korvattu Dis*10:llä tarkemmaksi (Dis on etäisyys viimeisen 0.1 sekunnin aikana)
Dir - Pelaajan liikekulma (astetta)

Edellisistä tiedoista jokainen peli muutettiin 10X11X14 dataksi, jossa oli 10 hyökkäävää pelaajaa (ilman pallonkantajaa), 11 puolustajaa ja 14 johdettua ominaisuutta:

sX – x pelaajan nopeus
sY – y pelaajan nopeus
s – Pelaajan nopeus
aX – x pelaajan kiihtyvyys
aY – y pelaajan kiihtyvyys
relX – x pelaajan etäisyys pallonkannattimeen
luottaa – y pelaajan etäisyys pallonkannattimeen nähden
relSx – x pelaajan nopeus suhteessa pallonkannattimeen
relSy – y pelaajan nopeus suhteessa pallonkannattimeen
relDist – Pelaajan euklidinen etäisyys pallonkannattimeen
oppX – x hyökkääjän etäisyys puolustajaan nähden
oppY – y hyökkääjän etäisyys puolustajaan nähden
oppSx –x hyökkääjän nopeus suhteessa puolustajaan
oppSy – y hyökkääjän nopeus suhteessa puolustajaan

Tietojen lisäämiseksi ja oikean ja vasemman sijainnin huomioon ottamiseksi X- ja Y-aseman arvot peilattiin myös oikean ja vasemman kentän sijainnin huomioon ottamiseksi. Tietojen esikäsittely ja ominaisuussuunnittelu mukautettiin voittajalta NFL Big Data Bowl kilpailu Kagglessa.

ML-metodologia ja mallikoulutus

Koska olemme kiinnostuneita pelin kaikista mahdollisista tuloksista, mukaan lukien touchdownin todennäköisyys, emme voi vain ennustaa saavutettujen jaardien keskiarvoa regressioongelmana. Meidän täytyy ennustaa kaikkien mahdollisten jaardien voittojen täydellinen todennäköisyysjakauma, joten muotoilimme ongelman todennäköisyysennusteeksi.

Yksi tapa toteuttaa todennäköisyysennusteita on määrittää saadut jaardit useille laatikoille (kuten alle 0, 0–1, 1–2, …, 14–15, enemmän kuin 15) ja ennustaa jaardit luokituksena ongelma. Tämän lähestymistavan haittapuoli on, että haluamme pienillä laatikoilla teräväpiirtokuvan jakaumasta, mutta pienet laatikot tarkoittavat vähemmän datapisteitä säiliötä kohden, ja jakelumme, erityisesti loppupäät, voi olla huonosti arvioitu ja epäsäännöllinen.

Toinen tapa toteuttaa todennäköisyysennusteita on mallintaa tulos jatkuvana todennäköisyysjakaumana, jossa on rajoitettu määrä parametreja (esimerkiksi Gaussin tai Gamma-jakauma) ja ennustaa parametrit. Tämä lähestymistapa antaa erittäin tarkan ja säännöllisen kuvan jakautumisesta, mutta se on liian jäykkä sopimaan saavutettujen telakoiden todelliseen jakautumiseen, joka on multimodaalista ja raskaspyrstöä.

Saadaksemme parhaan hyödyn molemmista menetelmistä käytämme Spliced Binned-Pareto -jakelu (SBP), jossa on säiliöt jakelun keskustaan, jossa on paljon tietoa saatavilla, ja Yleistetty Pareto-jakauma (GPD) molemmissa päissä, joissa voi tapahtua harvinaisia mutta tärkeitä tapahtumia, kuten kosketus. GPD:ssä on kaksi parametria: yksi mittakaavalle ja toinen hännän raskaudelle, kuten seuraavasta kaaviosta näkyy (lähde: Wikipedia).

Liittämällä GPD:n binned-jakaumaan (katso seuraava vasen kaavio) molemmille puolille, saamme seuraavan SBP:n oikealla. Alempi ja ylempi kynnys, joissa liitos tehdään, ovat hyperparametreja.

Binnitut ja SPB-jakelut

Lähtökohtana käytimme mallia, joka voitti meidän NFL Big Data Bowl kilpailu Kagglessa. Tämä malli käyttää CNN-kerroksia ominaisuuksien poimimiseen valmistetuista tiedoista ja ennustaa tuloksen "1 jaardi per bin" -luokitusongelmana. Mallissamme säilytimme ominaisuuden erotuskerrokset perusviivasta ja muokkasimme vain viimeistä kerrosta SBP-parametrien tulostamiseksi kunkin säiliön todennäköisyyksien sijaan, kuten seuraavassa kuvassa (kuva muokattu viestistä 1. sija ratkaisu Eläintarha).

Malli arkkitehtuuri

Käytimme toimittamaa SBP-jakelua GluonTS. GluonTS on Python-paketti todennäköisyyspohjaiseen aikasarjamallinnukseen, mutta SBP-jakauma ei ole aikasarjakohtainen, ja pystyimme käyttämään sitä uudelleen regressiota varten. Lisätietoja GluonTS SBP:n käytöstä on seuraavassa esittelyssä muistikirja.

Mallit koulutettiin ja ristiinvalidoitiin kaudella 2018, 2019 ja 2020 ja testattiin kaudella 2021. Vuodon välttämiseksi ristiintarkistuksen aikana ryhmittelimme kaikki pelit samasta pelistä samaan kippiin.

Arviointia varten säilytimme Kaggle-kilpailussa käytetyn mittarin jatkuva rankattu todennäköisyyspiste (CRPS), jota voidaan pitää vaihtoehtona log-todennäköisyydelle, joka on vahvempi poikkeaville arvoille. Käytimme myös Pearson-korrelaatiokerroin ja RMSE yleisinä ja tulkittavissa olevina tarkkuusmittareina. Lisäksi tarkastelimme kosketuksen todennäköisyyttä ja todennäköisyyskaavioita kalibroinnin arvioimiseksi.

Malli on koulutettu CRPS-häviön avulla Stokastinen painon keskiarvo ja aikainen pysähtyminen.

Käsitelläksemme tulosjakaumien binoidun osan epäsäännöllisyyttä käytimme kahta tekniikkaa:

Tasaisuussakko, joka on verrannollinen kahden peräkkäisen säiliön väliseen erotukseen
Ristiinvalidoinnin aikana koulutetut mallien yhdistäminen

Mallin suorituskykytulokset

Teimme kullekin tietojoukolle ruudukkohaun seuraavilla vaihtoehdoilla:

Todennäköisyysmallit
- Perustaso oli yksi todennäköisyys per jaardi
- SBP oli yksi todennäköisyys per jaardi keskellä, yleinen SBP pyrstöissä
Jakauman tasoitus
- Ei tasoitusta (tasaisuussakko = 0)
- Tasaisuusrangaistus = 5
- Tasaisuusrangaistus = 10
Koulutus ja johtopäätösmenettely
- 10-kertainen ristiinvalidointi ja ensemble-päätelmä (k10)
- Koulutus junassa ja validointitiedot 10 aikakaudelta tai 20 aikakaudelta

Sitten tarkastelimme viiden parhaan mallin mittareita CRPS:n mukaan lajiteltuina (alempi on parempi).

Kickoff-tietojen osalta SBP-malli toimii hieman CRPS:n suhteen paremmin, mutta mikä tärkeämpää, se arvioi kosketuksen todennäköisyyden paremmin (todellinen todennäköisyys on 0.80 % testisarjassa). Näemme, että parhaissa malleissa käytetään 10 taitosta (k10) eikä tasaisuusrangaistusta, kuten seuraavassa taulukossa näkyy.

koulutus	Malli	tasaisuus	CRPS	RMSE	CORR %	P(touchdown) %
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Lähtötilanne	0	4.074	9.62	47.585	0.306
k10	Lähtötilanne	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Lähtötilanne	10	4.08	9.621	47.519	0.265

Seuraava kaavio havaituista taajuuksista ja ennustetuista todennäköisyyksistä osoittaa parhaan mallimme hyvän kalibroinnin, jossa kahden jakauman välinen RMSE on 0.27. Huomaa todellisen (sinisen) empiirisen jakauman pyrstössä esiintyvät suuret jaardit (esimerkiksi 100), joiden todennäköisyydet ovat SBP:llä paremmin havaittavissa kuin perusmenetelmällä.

Kickoff havaittu taajuudet ja ennustettu todennäköisyysjakauma

Punktitiedoissa perusviiva ylittää SBP:n, ehkä siksi, että äärimmäisen yardage-pyrstöillä on vähemmän realisaatioita. Siksi on parempi vaihtoehto kaapata modaliteetti 0–10 jaardin huippujen välillä; ja toisin kuin aloitustiedot, paras malli käyttää sileyssakkoa. Seuraavassa taulukossa on yhteenveto havainnoistamme.

koulutus	Malli	tasaisuus	CRPS	RMSE	CORR %	P(touchdown) %
k10	Lähtötilanne	5	3.961	8.313	35.227	0.547
k10	Lähtötilanne	0	3.972	8.346	34.227	0.579
k10	Lähtötilanne	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Seuraava kaavio havaituista taajuuksista (sinisellä) ja ennustetuilla todennäköisyyksillä kahdelle parhaalle punttimallille osoittaa, että tasoittamaton malli (oranssilla) on hieman paremmin kalibroitu kuin tasoitettu malli (vihreällä) ja voi olla parempi valinta kaiken kaikkiaan.

Aseta tosi ja ennustetut todennäköisyydet

Yhteenveto

Tässä viestissä osoitimme, kuinka rakentaa ennustavia malleja rasvan pyrstöllä datan jakamalla. Käytimme Spliced Binned-Pareto -jakaumaa, joka on toteutettu GluonTS:ssä, joka voi mallintaa vankasti tällaisia rasvaperäisiä jakaumia. Käytimme tätä tekniikkaa rakentaessamme malleja punt- ja kickoff-paloille. Voimme soveltaa tätä ratkaisua vastaaviin käyttötapauksiin, joissa datassa on hyvin vähän tapahtumia, mutta niillä on merkittävä vaikutus mallien yleiseen suorituskykyyn.

Jos haluat apua ML: n käytön nopeuttamisessa tuotteissasi ja palveluissasi, ota yhteyttä Amazon ML Solutions Lab ohjelma.

Tietoja Tekijät

Ennusta jalkapallon lyönti- ja aloituspotkujaardeja rasvahaarajakaumalla GluonTS PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai. Tesfagabir Meharizghi on datatieteilijä Amazon ML Solutions Lab jossa hän auttaa AWS-asiakkaita eri aloilla, kuten terveydenhuolto ja biotieteet, valmistus, autoteollisuus sekä urheilu ja media, nopeuttamaan koneoppimisen ja AWS-pilvipalveluiden käyttöä liiketoiminnan haasteiden ratkaisemisessa.

Marc van Oudheusden on vanhempi tietotutkija Amazon ML Solutions Lab -tiimissä Amazon Web Services -palvelussa. Hän työskentelee AWS-asiakkaiden kanssa ratkaistakseen liiketoimintaongelmia tekoälyn ja koneoppimisen avulla. Työn ulkopuolella saatat löytää hänet rannalta leikkimässä lastensa kanssa, surffaamassa tai leijalautailemassa.

Panpan Xu on vanhempi soveltuva tutkija ja johtaja Amazon ML Solutions Labissa AWS:ssä. Hän työskentelee koneoppimisalgoritmien tutkimuksen ja kehittämisen parissa vaikuttaville asiakassovelluksille useilla eri teollisuudenaloilla nopeuttaakseen heidän tekoälyn ja pilven käyttöönottoa. Hänen tutkimuskohteenaan ovat mallien tulkittavuus, syy-analyysi, ihmissilmukan tekoäly ja interaktiivinen datan visualisointi.

Ennusta jalkapallon lyönti- ja aloituspotkujaardeja rasvahaarajakaumalla GluonTS PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai. Kyeong Hoon (Jonathan) Jung on vanhempi ohjelmistoinsinööri National Football Leaguessa. Hän on työskennellyt Next Gen Stats -tiimissä viimeiset seitsemän vuotta auttaen rakentamaan alustaa raakadatan suoratoistosta, tietojen käsittelyyn tarkoitettujen mikropalvelujen rakentamisesta käsitellyt tiedot paljastavien API:iden rakentamiseen. Hän on tehnyt yhteistyötä Amazon Machine Learning Solutions Labin kanssa tarjotakseen heille puhdasta dataa työskentelyyn sekä toimialuetietoa itse tiedoista. Työn ulkopuolella hän nauttii pyöräilystä Los Angelesissa ja patikoinnista Sierrassa.

Ennusta jalkapallon lyönti- ja aloituspotkujaardeja rasvahaarajakaumalla GluonTS PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai. Michael Chi on vanhempi teknologiajohtaja, joka valvoo seuraavan sukupolven tilastoja ja tietotekniikkaa National Football Leaguessa. Hän on suorittanut matematiikan ja tietojenkäsittelytieteen tutkinnon Illinoisin yliopistosta Urbana Champaignissa. Michael liittyi ensimmäisen kerran NFL:ään vuonna 2007 ja on keskittynyt pääasiassa jalkapallotilastojen teknologiaan ja alustoihin. Vapaa-ajallaan hän viettää mielellään aikaa perheensä kanssa ulkona.

Mike Band on National Football Leaguen seuraavan sukupolven tilastojen tutkimus- ja analytiikkapäällikkö. Siitä lähtien kun hän liittyi joukkueeseen vuonna 2018, hän on vastannut faneille, NFL-lähetyskumppaneille ja 32 seuralle tärkeimpien tilastojen ja oivallusten ideoinnista, kehittämisestä ja viestimisestä. Mike tuo joukkueeseen runsaasti tietoa ja kokemusta suorittamalla analytiikan maisterin tutkinnon Chicagon yliopistosta, suorittamalla kandidaatin tutkinnon urheilun hallinnassa Floridan yliopistosta ja kokemusta sekä Minnesota Vikingsin partioosastolta että rekrytointiosastolta. Florida Gator Footballista.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Aikaleima: Helmikuu 2, 2023

Aikaleima: Huhtikuu 5, 2022

Julkaissut Platon

Valmistele dataa suuressa mittakaavassa Amazon SageMaker Studiossa käyttämällä palvelimettomia interaktiivisia AWS Glue -istuntoja

Amazon Lookout for Vision -kuvien lisäysputki

Salli näkövammaisten kuulla asiakirjoja Amazon Textractin ja Amazon Pollyn avulla

Integroi ServiceNow Amazon Lex -chatbotin kanssa lippujen käsittelyä varten

AWS-pilviteknologia lähes reaaliaikaiseen sydämen poikkeamien havaitsemiseen puettavien laitteiden tietojen avulla

Luo synteettistä dataa AWS:n tietokonenäköputkistoja varten

Mukauta Amazon SageMaker XGBoost -algoritmisäiliötä

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili