Täna jätkab NFL oma teekonda, et suurendada pakutava statistika arvu Järgmine põlvkonna statistika platvorm kõigile 32 meeskonnale ja fännidele. Masinõppest (ML) tuletatud täiustatud analüütika abil loob NFL uusi viise jalgpalli kvantifitseerimiseks ja fännidele vahendite pakkumiseks, mis on vajalikud nende teadmiste suurendamiseks mängud mängu sees jalgpallist. 2022. aasta hooajal oli NFL-i eesmärk kasutada mängijate jälgimise andmeid ja uusi täiustatud analüüsitehnikaid. erimeeskondade paremaks mõistmiseks.
Projekti eesmärk oli ennustada, mitu jardi võidab tagasimängija punt- või kickoff-mängus. Üheks väljakutseks löögi ja avalöögi ennustusmudelite loomisel on väga haruldaste sündmuste – näiteks maandumiste – kättesaadavus, millel on mängu dünaamikas oluline tähtsus. Rasvasabadega andmete jaotus on tavaline reaalsetes rakendustes, kus haruldased sündmused mõjutavad oluliselt mudelite üldist jõudlust. Tugeva meetodi kasutamine ekstreemsete sündmuste jaotuse täpseks modelleerimiseks on parema üldise jõudluse jaoks ülioluline.
Selles postituses demonstreerime, kuidas kasutada GluonTS-is rakendatud Spliced Binned-Pareto jaotust selliste rasvade jaotuste usaldusväärseks modelleerimiseks.
Esmalt kirjeldame kasutatud andmekogumit. Järgmisena tutvustame andmestikule rakendatud andmete eeltöötlust ja muid teisendusmeetodeid. Seejärel selgitame üksikasjalikult ML-i metoodikat ja mudelkoolitusprotseduure. Lõpuks tutvustame mudeli jõudluse tulemusi.
Andmebaas
Selles postituses kasutasime kahte andmestikku, et luua eraldi mudelid punt- ja kickoff-tagastuse jaoks. Mängija jälgimisandmed sisaldavad mängija asukohta, suunda, kiirendust ja muud (x,y koordinaatides). Neljalt NFL-i hooajalt (3,000–4,000) on mängudes vastavalt umbes 2018 ja 2021 mängu. Lisaks on andmekogudes väga vähe punktide ja avalöögiga seotud maandumisi – ainult vastavalt 0.23% ja 0.8%. Andmete jaotus punkti ja avalöögi kohta on erinev. Näiteks väljalöögi ja löökide tegelik läbisõidu jaotus on sarnane, kuid nihkunud, nagu on näidatud järgmisel joonisel.
Andmete eeltöötlus ja funktsioonide projekteerimine
Esiteks filtreeriti jälgimisandmed ainult punktide ja avalöögiga seotud andmete jaoks. Mängija andmeid kasutati mudeliarenduse funktsioonide tuletamiseks:
- X – Mängija asukoht piki väljaku pikitelge
- Y – Mängija asukoht piki väljaku lühikest telge
- S – kiirus jardides sekundis; asendatakse Dis*10-ga, et muuta see täpsemaks (Dis on vahemaa viimase 0.1 sekundi jooksul)
- Dir - mängija liikumise nurk (kraadi)
Eelnevate andmete põhjal muudeti iga mäng 10 ründemängijaga (välja arvatud pallikandja), 11 kaitsja ja 14 tuletatud funktsiooniga andmeteks 10X11X14:
- sX – x mängija kiirus
- sY – y mängija kiirus
- s - mängija kiirus
- aX – x mängija kiirendus
- aY – y mängija kiirendus
- relX – x mängija kaugus pallikandjast
- tugineda – y mängija kaugus pallikandjast
- relSx – x mängija kiirus pallikandja suhtes
- relSy – y mängija kiirus pallikandja suhtes
- relDist – mängija eukleidiline kaugus pallikandja suhtes
- oppX – x ründemängija kaugus kaitsemängijast
- oppY – y ründemängija kaugus kaitsemängijast
- oppSx –x ründemängija kiirus võrreldes kaitsemängijaga
- oppSy – y ründemängija kiirus võrreldes kaitsemängijaga
Andmete täiendamiseks ja parema ja vasakpoolse positsiooni arvessevõtmiseks peegeldati ka X- ja Y-positsiooni väärtused, et võtta arvesse parem- ja vasakpoolseid positsioone. Andmete eeltöötlus ja funktsioonide projekteerimine kohandati võitja järgi NFL Big Data Bowl võistlus Kaggle'il.
ML metoodika ja mudelkoolitus
Kuna meid huvitavad mängu kõikvõimalikud tulemused, sealhulgas maandumise tõenäosus, ei saa me lihtsalt regressiooniprobleemina ennustada keskmist kogutud jardi. Peame ennustama kõigi võimalike jardi suurenemiste täielikku tõenäosusjaotust, seega kujundasime probleemi tõenäosusliku ennustusena.
Üks võimalus tõenäosuslike prognooside rakendamiseks on määrata saadud jardid mitmele prügikastile (nt alla 0, 0–1, 1–2, …, 14–15, rohkem kui 15) ja ennustada prügikasti klassifikatsioonina. probleem. Selle lähenemisviisi negatiivne külg on see, et me tahame, et väikestel prügikastidel oleks jaotusest kõrglahutusega pilt, kuid väikesed salved tähendavad vähem andmepunkte prügikasti kohta ja meie jaotus, eriti sabad, võib olla halvasti hinnatud ja ebaregulaarne.
Teine võimalus tõenäosuslike prognooside rakendamiseks on väljundi modelleerimine pideva tõenäosusjaotusena piiratud arvu parameetritega (näiteks Gaussi või Gamma jaotus) ja parameetrite ennustamine. See lähenemisviis annab jaotusest väga kõrge definitsiooni ja korrapärase pildi, kuid on liiga jäik, et sobituda saadud jadade tegeliku jaotusega, mis on mitmeliigiline ja raske sabaga.
Mõlema meetodi parimaks kasutamiseks kasutame Splaissitud Binned-Pareto jaotus (SBP), millel on salved jaotuse keskpunkti jaoks, kus on saadaval palju andmeid, ja Üldistatud Pareto jaotus (GPD) mõlemas otsas, kus võivad juhtuda haruldased, kuid olulised sündmused, näiteks maandumine. GPD-l on kaks parameetrit: üks skaala ja teine saba raskuse jaoks, nagu on näha järgmiselt graafikult (allikas: Wikipedia).
Ühendades GPD mõlemal küljel bineeritud jaotusega (vt järgmist vasakpoolset graafikut), saame järgmise SBP paremal. Alumine ja ülemine lävi, kus splaissimine toimub, on hüperparameetrid.
Lähtealusena kasutasime mudelit, mis võitis meie NFL Big Data Bowl võistlus Kaggle'il. See mudel kasutab ettevalmistatud andmetest funktsioonide eraldamiseks CNN-i kihte ja ennustab tulemust klassifikatsiooniprobleemina "1 jard prügikasti kohta". Oma mudeli puhul jätsime funktsioonide eraldamise kihid algtasemest ja muutsime ainult viimast kihti, et väljastada iga salve tõenäosuste asemel SBP parameetrid, nagu on näidatud järgmisel joonisel (postitusest redigeeritud pilt I koha lahendus Loomaaed).
Kasutasime poolt pakutavat SBP jaotust GluonTS. GluonTS on Pythoni pakett tõenäosusliku aegridade modelleerimiseks, kuid SBP jaotus ei ole aegridade spetsiifiline ja saime selle regressiooniks ümber kasutada. Lisateavet GluonTS SBP kasutamise kohta leiate järgmisest demost märkmik.
Mudeleid koolitati ja ristvalideeriti 2018., 2019. ja 2020. aasta hooajal ning testiti 2021. aasta hooajal. Et vältida leket ristvalideerimise ajal, rühmitasime kõik sama mängu mängud samasse voldiks.
Hindamiseks jätsime alles Kaggle võistlusel kasutatud mõõdiku pidev järjestatud tõenäosusskoor (CRPS), mida võib vaadelda kui log-tõenäosuse alternatiivi, mis on kõrvalekallete suhtes tugevam. Kasutasime ka Pearsoni korrelatsioonikordaja ja RMSE üldiste ja tõlgendatavate täpsusmõõdikutena. Lisaks vaatasime kalibreerimise hindamiseks maandumise tõenäosust ja tõenäosusgraafikuid.
Mudelit õpetati CRPS-i kadu kasutades Stohhastiline kaalu keskmistamine ja varajane peatumine.
Väljundjaotuste bineeritud osa ebakorrapärasuse käsitlemiseks kasutasime kahte tehnikat:
- Siledustrahv, mis on võrdeline kahe järjestikuse prügikasti ruudu erinevusega
- Ristvalideerimise käigus koolitatud mudelite komplekteerimine
Mudeli jõudluse tulemused
Iga andmestiku jaoks tegime ruudustikuotsingu järgmiste valikute kaudu:
- Tõenäosuslikud mudelid
- Algtase oli üks tõenäosus jardi kohta
- SBP oli üks tõenäosus jardi kohta keskel, üldistatud SBP sabades
- Jaotuse silumine
- Silumine puudub (sileduse trahv = 0)
- Sujuvuse trahv = 5
- Sujuvuse trahv = 10
- Koolitus ja järelduste tegemise protseduur
- 10 volti ristvalideerimine ja ansambli järeldus (k10)
- Treening rongis ja valideerimisandmed 10 epohhi või 20 epohhi kohta
Seejärel vaatasime CRPS-i järgi sorteeritud viie parima mudeli mõõdikuid (madalam on parem).
Algatusandmete puhul toimib SBP mudel CRPS-i osas veidi üle, kuid mis veelgi olulisem, hindab see maandumistõenäosust paremini (testikomplektis on tegelik tõenäosus 0.80%). Näeme, et parimad mudelid kasutavad 10 voltimist (k10) ja ilma sujuvuse trahvita, nagu on näidatud järgmises tabelis.
koolitus | MUDEL | Sujuvus | CRPS | RMSE | CORR % | P (touchdown)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Järgmine vaadeldud sageduste ja prognoositud tõenäosuste graafik näitab meie parima mudeli head kalibreerimist, kusjuures kahe jaotuse vaheline RMSE on 0.27, 100. Pange tähele tõelise (sinise) empiirilise jaotuse sabas esinevaid suure läbimõõduga (näiteks XNUMX) esinemisi, mille tõenäosused on SBP-ga paremini tabatavad kui baasmeetodil.
Punktiandmete puhul ületab lähtejoon SBP-d, võib-olla seetõttu, et äärmusliku läbimõõduga sabadel on vähem teostusi. Seetõttu on parem kompromiss jäädvustada modaalsus 0–10 jardi tippude vahel; ja vastupidiselt avalöögi andmetele kasutab parim mudel sujuvuse trahvi. Järgmine tabel võtab kokku meie järeldused.
koolitus | MUDEL | Sujuvus | CRPS | RMSE | CORR % | P (touchdown)% |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Järgmine vaadeldud sageduste (sinine) ja prognoositud tõenäosuste graafik kahe parima puntmudeli jaoks näitab, et silumata mudel (oranž) on veidi paremini kalibreeritud kui silutud mudel (roheline) ja võib olla üldiselt parem valik.
Järeldus
Selles postituses näitasime, kuidas luua ennustavaid mudeleid rasvase andmejaotusega. Kasutasime Spliced Binned-Pareto jaotust, mis on rakendatud GluonTS-is, mis suudab selliseid rasvade jaotusi usaldusväärselt modelleerida. Kasutasime seda tehnikat punt- ja kickoff-tagastuse mudelite koostamiseks. Seda lahendust saame rakendada sarnastel kasutusjuhtudel, kus andmetes on väga vähe sündmusi, kuid need sündmused mõjutavad oluliselt mudelite üldist toimivust.
Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja teenustes, võtke ühendust Amazon ML Solutions Lab programmi.
Autoritest
Tesfagabir Meharizghi on andmeteadlane ettevõttes Amazon ML Solutions Lab kus ta aitab AWS-i kliente erinevates tööstusharudes, nagu tervishoid ja bioteadused, tootmine, autotööstus ning sport ja meedia, kiirendada masinõppe ja AWS-i pilveteenuste kasutamist nende äriprobleemide lahendamisel.
Marc van Oudheusden on Amazon Web Servicesi Amazon ML Solutions Labi meeskonna vanemandmeteadlane. Ta teeb koostööd AWS-i klientidega, et lahendada tehisintellekti ja masinõppega seotud äriprobleeme. Väljaspool tööd võite teda leida rannast, lastega mängimas, surfamas või lohesurfamas.
Panpan Xu on vanemrakendusteadlane ja AWS-i Amazon ML Solutions Labi juht. Ta tegeleb masinõppe algoritmide uurimise ja arendusega, mis on mõeldud suure mõjuga kliendirakendustele erinevates tööstusvaldkondades, et kiirendada nende tehisintellekti ja pilve kasutuselevõttu. Tema uurimishuvi hõlmab mudeli tõlgendatavust, põhjuslikku analüüsi, inimese ahelas tehisintellekti ja interaktiivset andmete visualiseerimist.
Kyeong Hoon (Jonathan) Jung on National Football League'i vanemtarkvarainsener. Ta on viimased seitse aastat olnud koos Next Gen Stats meeskonnaga, aidates välja ehitada platvormi alates toorandmete voogesitusest, mikroteenuste loomisest andmete töötlemiseks kuni API-de loomiseni, mis paljastavad töödeldud andmeid. Ta on teinud koostööd Amazon Machine Learning Solutions Labiga, pakkudes neile töötamiseks puhtaid andmeid ning pakkudes domeeniteadmisi andmete enda kohta. Töövälisel ajal meeldib talle Los Angeleses jalgrattaga sõita ja Sierras matkata.
Michael Chi on tehnoloogia vanemdirektor, kes juhib National Football League'is järgmise põlvkonna statistikat ja andmetehnoloogiat. Tal on kraad matemaatikas ja arvutiteaduses Illinoisi ülikoolist Urbana Champaignis. Michael liitus NFLiga esmakordselt 2007. aastal ning on keskendunud peamiselt jalgpallistatistika tehnoloogiale ja platvormidele. Vabal ajal veedab ta meelsasti perega õues aega.
Mike Band on National Football League'i järgmise põlvkonna statistika uuringute ja analüüside vanemjuht. Alates meeskonnaga liitumisest 2018. aastal on ta vastutanud nii fännide, NFL-i ülekandepartnerite kui ka 32 klubi mängijate jälgimisandmetest saadud põhistatistika ja -ülevaadete ideede, arendamise ja edastamise eest. Mike toob meeskonda hulgaliselt teadmisi ja kogemusi, omandades magistrikraadi analüütikas Chicago ülikoolist, bakalaureusekraadi spordijuhtimises Florida ülikoolist ning kogemusi nii Minnesota Vikingsi skaudiosakonnas kui ka värbamisosakonnas. Florida Gator Football.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Võimalik
- MEIST
- kiirendama
- kiirendades
- konto
- täpsus
- täpne
- täpselt
- üle
- lisamine
- Vastuvõtmine
- edasijõudnud
- AI
- algoritme
- Materjal: BPA ja flataatide vaba plastik
- alternatiiv
- Amazon
- Amazoni masinõpe
- Amazon ML Solutions Lab
- Amazon Web Services
- analüüs
- analytics
- ja
- Angeles
- rakendused
- rakendatud
- kehtima
- lähenemine
- arhitektuur
- ümber
- kunstlik
- tehisintellekti
- Tehisintellekt ja masinõpe
- auto
- kättesaadavus
- saadaval
- keskmine
- AWS
- Telg
- ball
- Baseline
- rand
- sest
- BEST
- Parem
- vahel
- Suur
- Big andmed
- sinine
- Mõlemad pooled
- Toob
- ülekanne
- ehitama
- Ehitus
- äri
- lüüa
- juhtudel
- keskus
- väljakutseid
- chicago
- Lapsed
- valik
- klassifikatsioon
- Cloud
- pilve adopteerimine
- pilvteenustest
- Klubid
- CNN
- koostööd teinud
- ühine
- KOMMUNIKATSIOON
- konkurents
- arvuti
- Arvutiteadus
- järjestikune
- kontakt
- sisaldab
- jätkates
- pidev
- vastupidi
- Korrelatsioon
- loomine
- otsustav
- klient
- Kliendid
- andmed
- andmepunktid
- andmeteadlane
- andmete visualiseerimine
- andmekogumid
- tegelema
- Kaitsjad
- kaitse
- Kraad
- näitama
- osakond
- Tuletatud
- kirjeldama
- detailid
- & Tarkvaraarendus
- erinevus
- erinev
- suund
- Juhataja
- kaugus
- jaotus
- Väljamaksed
- domeen
- miinus
- ajal
- dünaamika
- iga
- Varajane
- lõppeb
- insener
- Inseneriteadus
- ajajärgud
- eriti
- Hinnanguliselt
- hinnangul
- hindama
- hindamine
- sündmused
- näide
- välja arvatud
- kogemus
- Selgitama
- väljavõte
- äärmuslik
- pere
- fännid
- Rasv
- tunnusjoon
- FUNKTSIOONID
- vähe
- väli
- Joonis
- Lõpuks
- leidma
- esimene
- sobima
- Florida
- keskendunud
- Järel
- jalgpall
- Alates
- täis
- Pealegi
- kasu
- Kasum
- mäng
- Gen
- Üldine
- saama
- annab
- eesmärk
- hea
- GPD
- graafik
- Green
- võre
- juhtuda
- tervishoid
- aitama
- aidates
- aitab
- Suur
- Kuidas
- Kuidas
- HTTPS
- Illinois
- pilt
- mõju
- rakendada
- rakendatud
- tähtsus
- oluline
- in
- hõlmab
- Kaasa arvatud
- Suurendama
- näitab
- tööstus-
- tööstusharudes
- info
- teadmisi
- selle asemel
- Intelligentsus
- interaktiivne
- huvi
- huvitatud
- IT
- ise
- liitunud
- liitumine
- teekond
- Võti
- teadmised
- labor
- viimane
- kiht
- kihid
- Liiga
- õppimine
- Finantsvõimendus
- elu
- Maaülikooli
- piiratud
- Pikk
- Vaatasin
- a
- Los Angeles
- kaotus
- Partii
- masin
- masinõpe
- tegema
- juhtimine
- juht
- tootmine
- palju
- meistrid
- matemaatika
- Meedia
- meetod
- Metoodika
- meetodid
- meetriline
- Meetrika
- Michael
- mikroteenused
- ML
- mudel
- mudelid
- modifitseeritud
- rohkem
- liikumine
- riiklik
- Vajadus
- Uus
- järgmine
- järgmine gen
- NFL
- number
- saama
- solvav
- ONE
- Valikud
- oranž
- Muu
- Tulemus
- väljas
- Ületab tulemusi
- väljaspool
- üldine
- pakend
- parameetrid
- osa
- partnerid
- minevik
- jõudlus
- ehk
- pilt
- Koht
- inimesele
- Platvormid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängima
- mängija
- mängijad
- mängimine
- palun
- võrra
- positsioon
- positsioone
- võimalik
- post
- ennustada
- ennustada
- ennustus
- Ennustused
- Ennustab
- valmis
- esitada
- eelkõige
- Probleem
- probleeme
- menetlused
- protsess
- Töödeldud
- Toodet
- Programm
- projekt
- anda
- tingimusel
- pakkudes
- Python
- reastatud
- HARULDANE
- Töötlemata
- päris maailm
- värbamisel
- regulaarne
- seotud
- asendatakse
- teadustöö
- teadus-ja arendustegevus
- vastutav
- Tulemused
- tagasipöördumine
- Tulu
- jäik
- jõuline
- sama
- Skaala
- teadus
- TEADUSED
- teadlane
- Otsing
- hooaeg
- hooaega
- sekundit
- vanem
- eri
- Seeria
- Teenused
- komplekt
- seitse
- mitu
- Lühike
- näidatud
- Küljed
- märkimisväärne
- sarnane
- lihtsalt
- alates
- väike
- So
- tarkvara
- Tarkvara insener
- lahendus
- Lahendused
- LAHENDAGE
- allikas
- eriline
- konkreetse
- kiirus
- Kulutused
- Sport
- sport
- ruuduline
- statistika
- stats
- peatumine
- streaming
- selline
- tabel
- meeskond
- meeskonnad
- tehnikat
- Tehnoloogia
- tingimused
- test
- .
- oma
- seetõttu
- aeg
- Ajaseeria
- et
- liiga
- töövahendid
- ülemine
- Jälgimine
- Rong
- koolitatud
- koolitus
- Transformation
- ümber
- tõsi
- mõistma
- Ülikool
- University of Chicago
- kasutama
- kinnitamine
- Väärtused
- sort
- eri
- vertikaalid
- Vikings
- visualiseerimine
- kuidas
- Jõukus
- web
- veebiteenused
- kaal
- mis
- Wikipedia
- jooksul
- Võitis
- Töö
- töö
- töötab
- oleks
- X
- aastat
- sa
- Sinu
- sephyrnet