Tänään NFL jatkaa matkaansa lisätäkseen tilastojen määrää Next Gen Stats Platform kaikille 32 joukkueelle ja faneille. Koneoppimisesta (ML) johdetun edistyneen analytiikan avulla NFL luo uusia tapoja mitata jalkapalloa ja tarjota faneille työkaluja, joita tarvitaan heidän tietämyksensä lisäämiseksi. pelit pelin sisällä jalkapallosta. Kaudella 2022 NFL pyrki hyödyntämään pelaajien seurantatietoja ja uusia edistyneitä analytiikkatekniikoita ymmärtääksesi paremmin erikoisryhmiä.
Projektin tavoitteena oli ennustaa, kuinka monta jaardia palaaja saavuttaa punt- tai kickoff-pelissä. Yksi haasteista, kun rakennetaan ennakoivia malleja punt- ja kickoff-tuottoihin, on erittäin harvinaisten tapahtumien – kuten touchdownien – saatavuus, joilla on merkittävä merkitys pelin dynamiikassa. Datan jakaminen rasvapyrstöillä on yleistä tosielämän sovelluksissa, joissa harvinaisilla tapahtumilla on merkittävä vaikutus mallien yleiseen suorituskykyyn. Vankan menetelmän käyttäminen ääritapahtumien jakautumisen tarkkaan mallintamiseen on ratkaisevan tärkeää paremman yleisen suorituskyvyn kannalta.
Tässä viestissä osoitamme kuinka käyttää GluonTS:ssä toteutettua Spliced Binned-Pareto -jakaumaa tällaisten rasvapäiden jakaumien mallintamiseen.
Kuvaamme ensin käytetyn tietojoukon. Seuraavaksi esittelemme aineistoon sovelletut tiedon esikäsittely- ja muut muunnosmenetelmät. Selitämme sitten ML-metodologian ja mallin koulutusmenettelyjen yksityiskohdat. Lopuksi esittelemme mallin suorituskykytulokset.
aineisto
Tässä viestissä käytimme kahta tietojoukkoa erillisten mallien rakentamiseen punt- ja kickoff-palauteille. Pelaajan seurantatiedot sisältävät pelaajan sijainnin, suunnan, kiihtyvyyden ja paljon muuta (x,y-koordinaateissa). Neljältä NFL-kaudelta (3,000–4,000) on noin 2018 2021 ja 0.23 0.8 peliä aloituspeleissä. Lisäksi tiedoissa on hyvin vähän punteihin ja kickoffiin liittyviä touchdowneja – vain XNUMX % ja XNUMX %. Punt- ja kickoff-tietojen jakautuminen on erilainen. Esimerkiksi aloituspotkujen ja lyöntien todellinen yardage-jakauma on samanlainen, mutta siirtynyt, kuten seuraavassa kuvassa näkyy.
Tietojen esikäsittely ja ominaisuuksien suunnittelu
Ensin seurantatiedot suodatettiin vain pisteisiin ja kickoffin palautuksiin liittyville tiedoille. Pelaajatietoja käytettiin mallinkehityksen ominaisuuksien johtamiseen:
- X – Pelaajan sijainti kentän pitkällä akselilla
- Y – Pelaajan sijainti kentän lyhyellä akselilla
- S – Nopeus jaardeina sekunnissa; korvattu Dis*10:llä tarkemmaksi (Dis on etäisyys viimeisen 0.1 sekunnin aikana)
- Dir - Pelaajan liikekulma (astetta)
Edellisistä tiedoista jokainen peli muutettiin 10X11X14 dataksi, jossa oli 10 hyökkäävää pelaajaa (ilman pallonkantajaa), 11 puolustajaa ja 14 johdettua ominaisuutta:
- sX – x pelaajan nopeus
- sY – y pelaajan nopeus
- s – Pelaajan nopeus
- aX – x pelaajan kiihtyvyys
- aY – y pelaajan kiihtyvyys
- relX – x pelaajan etäisyys pallonkannattimeen
- luottaa – y pelaajan etäisyys pallonkannattimeen nähden
- relSx – x pelaajan nopeus suhteessa pallonkannattimeen
- relSy – y pelaajan nopeus suhteessa pallonkannattimeen
- relDist – Pelaajan euklidinen etäisyys pallonkannattimeen
- oppX – x hyökkääjän etäisyys puolustajaan nähden
- oppY – y hyökkääjän etäisyys puolustajaan nähden
- oppSx –x hyökkääjän nopeus suhteessa puolustajaan
- oppSy – y hyökkääjän nopeus suhteessa puolustajaan
Tietojen lisäämiseksi ja oikean ja vasemman sijainnin huomioon ottamiseksi X- ja Y-aseman arvot peilattiin myös oikean ja vasemman kentän sijainnin huomioon ottamiseksi. Tietojen esikäsittely ja ominaisuussuunnittelu mukautettiin voittajalta NFL Big Data Bowl kilpailu Kagglessa.
ML-metodologia ja mallikoulutus
Koska olemme kiinnostuneita pelin kaikista mahdollisista tuloksista, mukaan lukien touchdownin todennäköisyys, emme voi vain ennustaa saavutettujen jaardien keskiarvoa regressioongelmana. Meidän täytyy ennustaa kaikkien mahdollisten jaardien voittojen täydellinen todennäköisyysjakauma, joten muotoilimme ongelman todennäköisyysennusteeksi.
Yksi tapa toteuttaa todennäköisyysennusteita on määrittää saadut jaardit useille laatikoille (kuten alle 0, 0–1, 1–2, …, 14–15, enemmän kuin 15) ja ennustaa jaardit luokituksena ongelma. Tämän lähestymistavan haittapuoli on, että haluamme pienillä laatikoilla teräväpiirtokuvan jakaumasta, mutta pienet laatikot tarkoittavat vähemmän datapisteitä säiliötä kohden, ja jakelumme, erityisesti loppupäät, voi olla huonosti arvioitu ja epäsäännöllinen.
Toinen tapa toteuttaa todennäköisyysennusteita on mallintaa tulos jatkuvana todennäköisyysjakaumana, jossa on rajoitettu määrä parametreja (esimerkiksi Gaussin tai Gamma-jakauma) ja ennustaa parametrit. Tämä lähestymistapa antaa erittäin tarkan ja säännöllisen kuvan jakautumisesta, mutta se on liian jäykkä sopimaan saavutettujen telakoiden todelliseen jakautumiseen, joka on multimodaalista ja raskaspyrstöä.
Saadaksemme parhaan hyödyn molemmista menetelmistä käytämme Spliced Binned-Pareto -jakelu (SBP), jossa on säiliöt jakelun keskustaan, jossa on paljon tietoa saatavilla, ja Yleistetty Pareto-jakauma (GPD) molemmissa päissä, joissa voi tapahtua harvinaisia mutta tärkeitä tapahtumia, kuten kosketus. GPD:ssä on kaksi parametria: yksi mittakaavalle ja toinen hännän raskaudelle, kuten seuraavasta kaaviosta näkyy (lähde: Wikipedia).
Liittämällä GPD:n binned-jakaumaan (katso seuraava vasen kaavio) molemmille puolille, saamme seuraavan SBP:n oikealla. Alempi ja ylempi kynnys, joissa liitos tehdään, ovat hyperparametreja.
Lähtökohtana käytimme mallia, joka voitti meidän NFL Big Data Bowl kilpailu Kagglessa. Tämä malli käyttää CNN-kerroksia ominaisuuksien poimimiseen valmistetuista tiedoista ja ennustaa tuloksen "1 jaardi per bin" -luokitusongelmana. Mallissamme säilytimme ominaisuuden erotuskerrokset perusviivasta ja muokkasimme vain viimeistä kerrosta SBP-parametrien tulostamiseksi kunkin säiliön todennäköisyyksien sijaan, kuten seuraavassa kuvassa (kuva muokattu viestistä 1. sija ratkaisu Eläintarha).
Käytimme toimittamaa SBP-jakelua GluonTS. GluonTS on Python-paketti todennäköisyyspohjaiseen aikasarjamallinnukseen, mutta SBP-jakauma ei ole aikasarjakohtainen, ja pystyimme käyttämään sitä uudelleen regressiota varten. Lisätietoja GluonTS SBP:n käytöstä on seuraavassa esittelyssä muistikirja.
Mallit koulutettiin ja ristiinvalidoitiin kaudella 2018, 2019 ja 2020 ja testattiin kaudella 2021. Vuodon välttämiseksi ristiintarkistuksen aikana ryhmittelimme kaikki pelit samasta pelistä samaan kippiin.
Arviointia varten säilytimme Kaggle-kilpailussa käytetyn mittarin jatkuva rankattu todennäköisyyspiste (CRPS), jota voidaan pitää vaihtoehtona log-todennäköisyydelle, joka on vahvempi poikkeaville arvoille. Käytimme myös Pearson-korrelaatiokerroin ja RMSE yleisinä ja tulkittavissa olevina tarkkuusmittareina. Lisäksi tarkastelimme kosketuksen todennäköisyyttä ja todennäköisyyskaavioita kalibroinnin arvioimiseksi.
Malli on koulutettu CRPS-häviön avulla Stokastinen painon keskiarvo ja aikainen pysähtyminen.
Käsitelläksemme tulosjakaumien binoidun osan epäsäännöllisyyttä käytimme kahta tekniikkaa:
- Tasaisuussakko, joka on verrannollinen kahden peräkkäisen säiliön väliseen erotukseen
- Ristiinvalidoinnin aikana koulutetut mallien yhdistäminen
Mallin suorituskykytulokset
Teimme kullekin tietojoukolle ruudukkohaun seuraavilla vaihtoehdoilla:
- Todennäköisyysmallit
- Perustaso oli yksi todennäköisyys per jaardi
- SBP oli yksi todennäköisyys per jaardi keskellä, yleinen SBP pyrstöissä
- Jakauman tasoitus
- Ei tasoitusta (tasaisuussakko = 0)
- Tasaisuusrangaistus = 5
- Tasaisuusrangaistus = 10
- Koulutus ja johtopäätösmenettely
- 10-kertainen ristiinvalidointi ja ensemble-päätelmä (k10)
- Koulutus junassa ja validointitiedot 10 aikakaudelta tai 20 aikakaudelta
Sitten tarkastelimme viiden parhaan mallin mittareita CRPS:n mukaan lajiteltuina (alempi on parempi).
Kickoff-tietojen osalta SBP-malli toimii hieman CRPS:n suhteen paremmin, mutta mikä tärkeämpää, se arvioi kosketuksen todennäköisyyden paremmin (todellinen todennäköisyys on 0.80 % testisarjassa). Näemme, että parhaissa malleissa käytetään 10 taitosta (k10) eikä tasaisuusrangaistusta, kuten seuraavassa taulukossa näkyy.
koulutus | Malli | tasaisuus | CRPS | RMSE | CORR % | P(touchdown) % |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Lähtötilanne | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Lähtötilanne | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Lähtötilanne | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Seuraava kaavio havaituista taajuuksista ja ennustetuista todennäköisyyksistä osoittaa parhaan mallimme hyvän kalibroinnin, jossa kahden jakauman välinen RMSE on 0.27. Huomaa todellisen (sinisen) empiirisen jakauman pyrstössä esiintyvät suuret jaardit (esimerkiksi 100), joiden todennäköisyydet ovat SBP:llä paremmin havaittavissa kuin perusmenetelmällä.
Punktitiedoissa perusviiva ylittää SBP:n, ehkä siksi, että äärimmäisen yardage-pyrstöillä on vähemmän realisaatioita. Siksi on parempi vaihtoehto kaapata modaliteetti 0–10 jaardin huippujen välillä; ja toisin kuin aloitustiedot, paras malli käyttää sileyssakkoa. Seuraavassa taulukossa on yhteenveto havainnoistamme.
koulutus | Malli | tasaisuus | CRPS | RMSE | CORR % | P(touchdown) % |
k10 | Lähtötilanne | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Lähtötilanne | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Lähtötilanne | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Seuraava kaavio havaituista taajuuksista (sinisellä) ja ennustetuilla todennäköisyyksillä kahdelle parhaalle punttimallille osoittaa, että tasoittamaton malli (oranssilla) on hieman paremmin kalibroitu kuin tasoitettu malli (vihreällä) ja voi olla parempi valinta kaiken kaikkiaan.
Yhteenveto
Tässä viestissä osoitimme, kuinka rakentaa ennustavia malleja rasvan pyrstöllä datan jakamalla. Käytimme Spliced Binned-Pareto -jakaumaa, joka on toteutettu GluonTS:ssä, joka voi mallintaa vankasti tällaisia rasvaperäisiä jakaumia. Käytimme tätä tekniikkaa rakentaessamme malleja punt- ja kickoff-paloille. Voimme soveltaa tätä ratkaisua vastaaviin käyttötapauksiin, joissa datassa on hyvin vähän tapahtumia, mutta niillä on merkittävä vaikutus mallien yleiseen suorituskykyyn.
Jos haluat apua ML: n käytön nopeuttamisessa tuotteissasi ja palveluissasi, ota yhteyttä Amazon ML Solutions Lab ohjelma.
Tietoja Tekijät
Tesfagabir Meharizghi on datatieteilijä Amazon ML Solutions Lab jossa hän auttaa AWS-asiakkaita eri aloilla, kuten terveydenhuolto ja biotieteet, valmistus, autoteollisuus sekä urheilu ja media, nopeuttamaan koneoppimisen ja AWS-pilvipalveluiden käyttöä liiketoiminnan haasteiden ratkaisemisessa.
Marc van Oudheusden on vanhempi tietotutkija Amazon ML Solutions Lab -tiimissä Amazon Web Services -palvelussa. Hän työskentelee AWS-asiakkaiden kanssa ratkaistakseen liiketoimintaongelmia tekoälyn ja koneoppimisen avulla. Työn ulkopuolella saatat löytää hänet rannalta leikkimässä lastensa kanssa, surffaamassa tai leijalautailemassa.
Panpan Xu on vanhempi soveltuva tutkija ja johtaja Amazon ML Solutions Labissa AWS:ssä. Hän työskentelee koneoppimisalgoritmien tutkimuksen ja kehittämisen parissa vaikuttaville asiakassovelluksille useilla eri teollisuudenaloilla nopeuttaakseen heidän tekoälyn ja pilven käyttöönottoa. Hänen tutkimuskohteenaan ovat mallien tulkittavuus, syy-analyysi, ihmissilmukan tekoäly ja interaktiivinen datan visualisointi.
Kyeong Hoon (Jonathan) Jung on vanhempi ohjelmistoinsinööri National Football Leaguessa. Hän on työskennellyt Next Gen Stats -tiimissä viimeiset seitsemän vuotta auttaen rakentamaan alustaa raakadatan suoratoistosta, tietojen käsittelyyn tarkoitettujen mikropalvelujen rakentamisesta käsitellyt tiedot paljastavien API:iden rakentamiseen. Hän on tehnyt yhteistyötä Amazon Machine Learning Solutions Labin kanssa tarjotakseen heille puhdasta dataa työskentelyyn sekä toimialuetietoa itse tiedoista. Työn ulkopuolella hän nauttii pyöräilystä Los Angelesissa ja patikoinnista Sierrassa.
Michael Chi on vanhempi teknologiajohtaja, joka valvoo seuraavan sukupolven tilastoja ja tietotekniikkaa National Football Leaguessa. Hän on suorittanut matematiikan ja tietojenkäsittelytieteen tutkinnon Illinoisin yliopistosta Urbana Champaignissa. Michael liittyi ensimmäisen kerran NFL:ään vuonna 2007 ja on keskittynyt pääasiassa jalkapallotilastojen teknologiaan ja alustoihin. Vapaa-ajallaan hän viettää mielellään aikaa perheensä kanssa ulkona.
Mike Band on National Football Leaguen seuraavan sukupolven tilastojen tutkimus- ja analytiikkapäällikkö. Siitä lähtien kun hän liittyi joukkueeseen vuonna 2018, hän on vastannut faneille, NFL-lähetyskumppaneille ja 32 seuralle tärkeimpien tilastojen ja oivallusten ideoinnista, kehittämisestä ja viestimisestä. Mike tuo joukkueeseen runsaasti tietoa ja kokemusta suorittamalla analytiikan maisterin tutkinnon Chicagon yliopistosta, suorittamalla kandidaatin tutkinnon urheilun hallinnassa Floridan yliopistosta ja kokemusta sekä Minnesota Vikingsin partioosastolta että rekrytointiosastolta. Florida Gator Footballista.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- pystyy
- Meistä
- kiihdyttää
- kiihtyvä
- Tili
- tarkkuus
- tarkka
- tarkasti
- poikki
- Lisäksi
- Hyväksyminen
- kehittynyt
- AI
- algoritmit
- Kaikki
- vaihtoehto
- Amazon
- Amazonin koneoppiminen
- Amazon ML Solutions Lab
- Amazon Web Services
- analyysi
- Analytics
- ja
- angeles
- sovellukset
- sovellettu
- käyttää
- lähestymistapa
- arkkitehtuuri
- noin
- keinotekoinen
- tekoäly
- Keinotekoinen älykkyys ja koneoppiminen
- Automotive
- saatavuus
- saatavissa
- keskimäärin
- AWS
- Akseli
- pallo
- Lähtötilanne
- Ranta
- koska
- PARAS
- Paremmin
- välillä
- Iso
- Big Data
- sininen
- Molemmin puolin
- Tuo
- lähettää
- rakentaa
- Rakentaminen
- liiketoiminta
- kaapata
- tapauksissa
- keskus
- haasteet
- Chicago
- Lapset
- valinta
- luokittelu
- pilvi
- pilvien hyväksyminen
- pilvipalvelut
- seurat
- CNN
- yhteistyötä
- Yhteinen
- Viestintä
- kilpailu
- tietokone
- Tietojenkäsittelyoppi
- peräkkäinen
- ottaa yhteyttä
- sisältää
- jatkuu
- jatkuva
- päinvastainen
- Korrelaatio
- Luominen
- ratkaiseva
- asiakas
- Asiakkaat
- tiedot
- datapisteet
- tietojen tutkija
- datan visualisointi
- aineistot
- sopimus
- Puolustajat
- Puolustus
- Aste
- osoittaa
- osasto
- johdettu
- kuvata
- yksityiskohdat
- Kehitys
- ero
- eri
- suunta
- Johtaja
- etäisyys
- jakelu
- Jakaumat
- verkkotunnuksen
- alapuoli
- aikana
- dynamiikka
- kukin
- Varhainen
- päättyy
- insinööri
- Tekniikka
- aikakausia
- erityisesti
- arvioidaan
- arviot
- arvioida
- arviointi
- Tapahtumat
- esimerkki
- lukuun ottamatta
- experience
- Selittää
- uute
- äärimmäinen
- perhe
- fanit
- Rasva
- Ominaisuus
- Ominaisuudet
- harvat
- ala
- Kuva
- Vihdoin
- Löytää
- Etunimi
- sovittaa
- Florida
- keskityttiin
- jälkeen
- jalkapallo
- alkaen
- koko
- Lisäksi
- Saada
- voitto
- peli
- Gen
- general
- saada
- antaa
- tavoite
- hyvä
- GPD
- kaavio
- Vihreä
- ruudukko
- tapahtua
- terveydenhuollon
- auttaa
- auttaa
- auttaa
- Korkea
- Miten
- Miten
- HTTPS
- Illinois
- kuva
- Vaikutus
- toteuttaa
- täytäntöön
- merkitys
- tärkeä
- in
- sisältää
- Mukaan lukien
- Kasvaa
- ilmaisee
- teollinen
- teollisuuden
- tiedot
- oivalluksia
- sen sijaan
- Älykkyys
- vuorovaikutteinen
- korko
- kiinnostunut
- IT
- itse
- liittyi
- tuloaan
- matka
- avain
- tuntemus
- laboratorio
- Sukunimi
- kerros
- kerrokset
- Liiga
- oppiminen
- Vaikutusvalta
- elämä
- Life Sciences
- rajallinen
- Pitkät
- Katsoin
- niitä
- Los Angeles
- pois
- Erä
- kone
- koneoppiminen
- tehdä
- johto
- johtaja
- valmistus
- monet
- maisterin
- matematiikka
- Media
- menetelmä
- Metodologia
- menetelmät
- metrinen
- Metrics
- Michael
- microservices
- ML
- malli
- mallit
- muokattu
- lisää
- liike
- kansallinen
- Tarve
- Uusi
- seuraava
- seuraava sukupolvi
- NFL
- numero
- saada
- hyökkäys
- ONE
- Vaihtoehdot
- Oranssi
- Muut
- Tulos
- ulkona
- päihittää
- ulkopuolella
- yleinen
- paketti
- parametrit
- osa
- kumppani
- Ohi
- suorituskyky
- ehkä
- kuva
- Paikka
- foorumi
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- Pelaa
- soitin
- pelaajat
- pelaa
- Ole hyvä
- pistettä
- sijainti
- kantoja
- mahdollinen
- Kirje
- ennustaa
- ennusti
- ennustus
- Ennusteet
- ennustaa
- valmis
- esittää
- pääasiallisesti
- Ongelma
- ongelmia
- menettelyt
- prosessi
- Käsitelty
- Tuotteemme
- Ohjelma
- projekti
- toimittaa
- mikäli
- tarjoamalla
- Python
- sijoittui
- HARVINAINEN
- raaka
- todellinen maailma
- rekrytointi
- säännöllinen
- liittyvä
- korvataan
- tutkimus
- tutkimus ja kehitys
- vastuullinen
- tulokset
- palata
- Tuotto
- jäykkä
- luja
- sama
- Asteikko
- tiede
- tieteet
- Tiedemies
- Haku
- Kausi
- vuodenajat
- sekuntia
- vanhempi
- erillinen
- Sarjat
- Palvelut
- setti
- seitsemän
- useat
- Lyhyt
- esitetty
- Sides
- merkittävä
- samankaltainen
- yksinkertaisesti
- koska
- pieni
- So
- Tuotteemme
- Software Engineer
- ratkaisu
- Ratkaisumme
- SOLVE
- lähde
- erityinen
- erityinen
- nopeus
- menot
- Urheilu
- Urheilu
- Squared
- tilasto
- tilastot
- pysäyttäminen
- streaming
- niin
- taulukko
- joukkue-
- tiimit
- tekniikat
- Elektroniikka
- ehdot
- testi
- -
- heidän
- siksi
- aika
- Aikasarja
- että
- liian
- työkalut
- ylin
- Seuranta
- Juna
- koulutettu
- koulutus
- Muutos
- transformoitu
- totta
- ymmärtää
- yliopisto
- University of Chicago
- käyttää
- validointi
- arvot
- lajike
- eri
- pystysuunnassa
- Viikingit
- visualisointi
- tavalla
- Rikkaus
- verkko
- verkkopalvelut
- paino
- joka
- wikipedia
- sisällä
- Voitetut
- Referenssit
- työskentely
- toimii
- olisi
- X
- vuotta
- Voit
- Sinun
- zephyrnet