Prognoosige Fotball Punt ja Kickoffi tagasilööki rasvase jaotusega, kasutades GluonTSi

Taasavaldanud Platon

järgijaid: 0

Täna jätkab NFL oma teekonda, et suurendada pakutava statistika arvu Järgmine põlvkonna statistika platvorm kõigile 32 meeskonnale ja fännidele. Masinõppest (ML) tuletatud täiustatud analüütika abil loob NFL uusi viise jalgpalli kvantifitseerimiseks ja fännidele vahendite pakkumiseks, mis on vajalikud nende teadmiste suurendamiseks mängud mängu sees jalgpallist. 2022. aasta hooajal oli NFL-i eesmärk kasutada mängijate jälgimise andmeid ja uusi täiustatud analüüsitehnikaid. erimeeskondade paremaks mõistmiseks.

Projekti eesmärk oli ennustada, mitu jardi võidab tagasimängija punt- või kickoff-mängus. Üheks väljakutseks löögi ja avalöögi ennustusmudelite loomisel on väga haruldaste sündmuste – näiteks maandumiste – kättesaadavus, millel on mängu dünaamikas oluline tähtsus. Rasvasabadega andmete jaotus on tavaline reaalsetes rakendustes, kus haruldased sündmused mõjutavad oluliselt mudelite üldist jõudlust. Tugeva meetodi kasutamine ekstreemsete sündmuste jaotuse täpseks modelleerimiseks on parema üldise jõudluse jaoks ülioluline.

Selles postituses demonstreerime, kuidas kasutada GluonTS-is rakendatud Spliced Binned-Pareto jaotust selliste rasvade jaotuste usaldusväärseks modelleerimiseks.

Esmalt kirjeldame kasutatud andmekogumit. Järgmisena tutvustame andmestikule rakendatud andmete eeltöötlust ja muid teisendusmeetodeid. Seejärel selgitame üksikasjalikult ML-i metoodikat ja mudelkoolitusprotseduure. Lõpuks tutvustame mudeli jõudluse tulemusi.

Andmebaas

Selles postituses kasutasime kahte andmestikku, et luua eraldi mudelid punt- ja kickoff-tagastuse jaoks. Mängija jälgimisandmed sisaldavad mängija asukohta, suunda, kiirendust ja muud (x,y koordinaatides). Neljalt NFL-i hooajalt (3,000–4,000) on mängudes vastavalt umbes 2018 ja 2021 mängu. Lisaks on andmekogudes väga vähe punktide ja avalöögiga seotud maandumisi – ainult vastavalt 0.23% ja 0.8%. Andmete jaotus punkti ja avalöögi kohta on erinev. Näiteks väljalöögi ja löökide tegelik läbisõidu jaotus on sarnane, kuid nihkunud, nagu on näidatud järgmisel joonisel.

Punktide ja tagasilöögi jardude jaotus

Andmete eeltöötlus ja funktsioonide projekteerimine

Esiteks filtreeriti jälgimisandmed ainult punktide ja avalöögiga seotud andmete jaoks. Mängija andmeid kasutati mudeliarenduse funktsioonide tuletamiseks:

X – Mängija asukoht piki väljaku pikitelge
Y – Mängija asukoht piki väljaku lühikest telge
S – kiirus jardides sekundis; asendatakse Dis*10-ga, et muuta see täpsemaks (Dis on vahemaa viimase 0.1 sekundi jooksul)
Dir - mängija liikumise nurk (kraadi)

Eelnevate andmete põhjal muudeti iga mäng 10 ründemängijaga (välja arvatud pallikandja), 11 kaitsja ja 14 tuletatud funktsiooniga andmeteks 10X11X14:

sX – x mängija kiirus
sY – y mängija kiirus
s - mängija kiirus
aX – x mängija kiirendus
aY – y mängija kiirendus
relX – x mängija kaugus pallikandjast
tugineda – y mängija kaugus pallikandjast
relSx – x mängija kiirus pallikandja suhtes
relSy – y mängija kiirus pallikandja suhtes
relDist – mängija eukleidiline kaugus pallikandja suhtes
oppX – x ründemängija kaugus kaitsemängijast
oppY – y ründemängija kaugus kaitsemängijast
oppSx –x ründemängija kiirus võrreldes kaitsemängijaga
oppSy – y ründemängija kiirus võrreldes kaitsemängijaga

Andmete täiendamiseks ja parema ja vasakpoolse positsiooni arvessevõtmiseks peegeldati ka X- ja Y-positsiooni väärtused, et võtta arvesse parem- ja vasakpoolseid positsioone. Andmete eeltöötlus ja funktsioonide projekteerimine kohandati võitja järgi NFL Big Data Bowl võistlus Kaggle'il.

ML metoodika ja mudelkoolitus

Kuna meid huvitavad mängu kõikvõimalikud tulemused, sealhulgas maandumise tõenäosus, ei saa me lihtsalt regressiooniprobleemina ennustada keskmist kogutud jardi. Peame ennustama kõigi võimalike jardi suurenemiste täielikku tõenäosusjaotust, seega kujundasime probleemi tõenäosusliku ennustusena.

Üks võimalus tõenäosuslike prognooside rakendamiseks on määrata saadud jardid mitmele prügikastile (nt alla 0, 0–1, 1–2, …, 14–15, rohkem kui 15) ja ennustada prügikasti klassifikatsioonina. probleem. Selle lähenemisviisi negatiivne külg on see, et me tahame, et väikestel prügikastidel oleks jaotusest kõrglahutusega pilt, kuid väikesed salved tähendavad vähem andmepunkte prügikasti kohta ja meie jaotus, eriti sabad, võib olla halvasti hinnatud ja ebaregulaarne.

Teine võimalus tõenäosuslike prognooside rakendamiseks on väljundi modelleerimine pideva tõenäosusjaotusena piiratud arvu parameetritega (näiteks Gaussi või Gamma jaotus) ja parameetrite ennustamine. See lähenemisviis annab jaotusest väga kõrge definitsiooni ja korrapärase pildi, kuid on liiga jäik, et sobituda saadud jadade tegeliku jaotusega, mis on mitmeliigiline ja raske sabaga.

Mõlema meetodi parimaks kasutamiseks kasutame Splaissitud Binned-Pareto jaotus (SBP), millel on salved jaotuse keskpunkti jaoks, kus on saadaval palju andmeid, ja Üldistatud Pareto jaotus (GPD) mõlemas otsas, kus võivad juhtuda haruldased, kuid olulised sündmused, näiteks maandumine. GPD-l on kaks parameetrit: üks skaala ja teine saba raskuse jaoks, nagu on näha järgmiselt graafikult (allikas: Wikipedia).

Ühendades GPD mõlemal küljel bineeritud jaotusega (vt järgmist vasakpoolset graafikut), saame järgmise SBP paremal. Alumine ja ülemine lävi, kus splaissimine toimub, on hüperparameetrid.

Binnitud ja SPB distributsioonid

Lähtealusena kasutasime mudelit, mis võitis meie NFL Big Data Bowl võistlus Kaggle'il. See mudel kasutab ettevalmistatud andmetest funktsioonide eraldamiseks CNN-i kihte ja ennustab tulemust klassifikatsiooniprobleemina "1 jard prügikasti kohta". Oma mudeli puhul jätsime funktsioonide eraldamise kihid algtasemest ja muutsime ainult viimast kihti, et väljastada iga salve tõenäosuste asemel SBP parameetrid, nagu on näidatud järgmisel joonisel (postitusest redigeeritud pilt I koha lahendus Loomaaed).

Mudeli arhitektuur

Kasutasime poolt pakutavat SBP jaotust GluonTS. GluonTS on Pythoni pakett tõenäosusliku aegridade modelleerimiseks, kuid SBP jaotus ei ole aegridade spetsiifiline ja saime selle regressiooniks ümber kasutada. Lisateavet GluonTS SBP kasutamise kohta leiate järgmisest demost märkmik.

Mudeleid koolitati ja ristvalideeriti 2018., 2019. ja 2020. aasta hooajal ning testiti 2021. aasta hooajal. Et vältida leket ristvalideerimise ajal, rühmitasime kõik sama mängu mängud samasse voldiks.

Hindamiseks jätsime alles Kaggle võistlusel kasutatud mõõdiku pidev järjestatud tõenäosusskoor (CRPS), mida võib vaadelda kui log-tõenäosuse alternatiivi, mis on kõrvalekallete suhtes tugevam. Kasutasime ka Pearsoni korrelatsioonikordaja ja RMSE üldiste ja tõlgendatavate täpsusmõõdikutena. Lisaks vaatasime kalibreerimise hindamiseks maandumise tõenäosust ja tõenäosusgraafikuid.

Mudelit õpetati CRPS-i kadu kasutades Stohhastiline kaalu keskmistamine ja varajane peatumine.

Väljundjaotuste bineeritud osa ebakorrapärasuse käsitlemiseks kasutasime kahte tehnikat:

Siledustrahv, mis on võrdeline kahe järjestikuse prügikasti ruudu erinevusega
Ristvalideerimise käigus koolitatud mudelite komplekteerimine

Mudeli jõudluse tulemused

Iga andmestiku jaoks tegime ruudustikuotsingu järgmiste valikute kaudu:

Tõenäosuslikud mudelid
- Algtase oli üks tõenäosus jardi kohta
- SBP oli üks tõenäosus jardi kohta keskel, üldistatud SBP sabades
Jaotuse silumine
- Silumine puudub (sileduse trahv = 0)
- Sujuvuse trahv = 5
- Sujuvuse trahv = 10
Koolitus ja järelduste tegemise protseduur
- 10 volti ristvalideerimine ja ansambli järeldus (k10)
- Treening rongis ja valideerimisandmed 10 epohhi või 20 epohhi kohta

Seejärel vaatasime CRPS-i järgi sorteeritud viie parima mudeli mõõdikuid (madalam on parem).

Algatusandmete puhul toimib SBP mudel CRPS-i osas veidi üle, kuid mis veelgi olulisem, hindab see maandumistõenäosust paremini (testikomplektis on tegelik tõenäosus 0.80%). Näeme, et parimad mudelid kasutavad 10 voltimist (k10) ja ilma sujuvuse trahvita, nagu on näidatud järgmises tabelis.

koolitus	MUDEL	Sujuvus	CRPS	RMSE	CORR %	P (touchdown)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

Järgmine vaadeldud sageduste ja prognoositud tõenäosuste graafik näitab meie parima mudeli head kalibreerimist, kusjuures kahe jaotuse vaheline RMSE on 0.27, 100. Pange tähele tõelise (sinise) empiirilise jaotuse sabas esinevaid suure läbimõõduga (näiteks XNUMX) esinemisi, mille tõenäosused on SBP-ga paremini tabatavad kui baasmeetodil.

Kickoff vaadeldakse sagedusi ja ennustatud tõenäosusjaotust

Punktiandmete puhul ületab lähtejoon SBP-d, võib-olla seetõttu, et äärmusliku läbimõõduga sabadel on vähem teostusi. Seetõttu on parem kompromiss jäädvustada modaalsus 0–10 jardi tippude vahel; ja vastupidiselt avalöögi andmetele kasutab parim mudel sujuvuse trahvi. Järgmine tabel võtab kokku meie järeldused.

koolitus	MUDEL	Sujuvus	CRPS	RMSE	CORR %	P (touchdown)%
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Järgmine vaadeldud sageduste (sinine) ja prognoositud tõenäosuste graafik kahe parima puntmudeli jaoks näitab, et silumata mudel (oranž) on veidi paremini kalibreeritud kui silutud mudel (roheline) ja võib olla üldiselt parem valik.

Täpsustage tõesed ja ennustatud tõenäosused

Järeldus

Selles postituses näitasime, kuidas luua ennustavaid mudeleid rasvase andmejaotusega. Kasutasime Spliced Binned-Pareto jaotust, mis on rakendatud GluonTS-is, mis suudab selliseid rasvade jaotusi usaldusväärselt modelleerida. Kasutasime seda tehnikat punt- ja kickoff-tagastuse mudelite koostamiseks. Seda lahendust saame rakendada sarnastel kasutusjuhtudel, kus andmetes on väga vähe sündmusi, kuid need sündmused mõjutavad oluliselt mudelite üldist toimivust.

Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja teenustes, võtke ühendust Amazon ML Solutions Lab programmi.

Autoritest

GluonTS PlatoBlockchain Data Intelligence'i abil ennustage jalgpalli tagasilöögi jardude arvu rasvase jaotusega. Vertikaalne otsing. Ai. Tesfagabir Meharizghi on andmeteadlane ettevõttes Amazon ML Solutions Lab kus ta aitab AWS-i kliente erinevates tööstusharudes, nagu tervishoid ja bioteadused, tootmine, autotööstus ning sport ja meedia, kiirendada masinõppe ja AWS-i pilveteenuste kasutamist nende äriprobleemide lahendamisel.

Marc van Oudheusden on Amazon Web Servicesi Amazon ML Solutions Labi meeskonna vanemandmeteadlane. Ta teeb koostööd AWS-i klientidega, et lahendada tehisintellekti ja masinõppega seotud äriprobleeme. Väljaspool tööd võite teda leida rannast, lastega mängimas, surfamas või lohesurfamas.

Panpan Xu on vanemrakendusteadlane ja AWS-i Amazon ML Solutions Labi juht. Ta tegeleb masinõppe algoritmide uurimise ja arendusega, mis on mõeldud suure mõjuga kliendirakendustele erinevates tööstusvaldkondades, et kiirendada nende tehisintellekti ja pilve kasutuselevõttu. Tema uurimishuvi hõlmab mudeli tõlgendatavust, põhjuslikku analüüsi, inimese ahelas tehisintellekti ja interaktiivset andmete visualiseerimist.

GluonTS PlatoBlockchain Data Intelligence'i abil ennustage jalgpalli tagasilöögi jardude arvu rasvase jaotusega. Vertikaalne otsing. Ai. Kyeong Hoon (Jonathan) Jung on National Football League'i vanemtarkvarainsener. Ta on viimased seitse aastat olnud koos Next Gen Stats meeskonnaga, aidates välja ehitada platvormi alates toorandmete voogesitusest, mikroteenuste loomisest andmete töötlemiseks kuni API-de loomiseni, mis paljastavad töödeldud andmeid. Ta on teinud koostööd Amazon Machine Learning Solutions Labiga, pakkudes neile töötamiseks puhtaid andmeid ning pakkudes domeeniteadmisi andmete enda kohta. Töövälisel ajal meeldib talle Los Angeleses jalgrattaga sõita ja Sierras matkata.

GluonTS PlatoBlockchain Data Intelligence'i abil ennustage jalgpalli tagasilöögi jardude arvu rasvase jaotusega. Vertikaalne otsing. Ai. Michael Chi on tehnoloogia vanemdirektor, kes juhib National Football League'is järgmise põlvkonna statistikat ja andmetehnoloogiat. Tal on kraad matemaatikas ja arvutiteaduses Illinoisi ülikoolist Urbana Champaignis. Michael liitus NFLiga esmakordselt 2007. aastal ning on keskendunud peamiselt jalgpallistatistika tehnoloogiale ja platvormidele. Vabal ajal veedab ta meelsasti perega õues aega.

Mike Band on National Football League'i järgmise põlvkonna statistika uuringute ja analüüside vanemjuht. Alates meeskonnaga liitumisest 2018. aastal on ta vastutanud nii fännide, NFL-i ülekandepartnerite kui ka 32 klubi mängijate jälgimisandmetest saadud põhistatistika ja -ülevaadete ideede, arendamise ja edastamise eest. Mike toob meeskonda hulgaliselt teadmisi ja kogemusi, omandades magistrikraadi analüütikas Chicago ülikoolist, bakalaureusekraadi spordijuhtimises Florida ülikoolist ning kogemusi nii Minnesota Vikingsi skaudiosakonnas kui ka värbamisosakonnas. Florida Gator Football.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Ajatempel: Veebruar 2, 2023

Ajatempel: Võib 16 2023

Teie AI/ML-i juhend AWS-is re:Invent 2022

Allikaklaster:

AWS-i masinõpe

Allikasõlm: 1758373

Ajatempel: November 18, 2022

Taasavaldanud Platon

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMakeri autopiloodiga – 2. osa

Tõhususe avamine: Amazon SageMakeri torujuhtmete valikulise täitmise võimsuse kasutamine | Amazoni veebiteenused

Tutvustame Amazon Personalize | lahenduste automaatset koolitust Amazoni veebiteenused

Amazon SageMaker Autopilot toetab nüüd aegridade andmeid

Looge võimas küsimustele vastamise robot Amazon SageMakeri, Amazon OpenSearch Service, Streamliti ja LangChaini abil | Amazoni veebiteenused

Teie AI/ML-i juhend AWS-is re:Invent 2022

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto