Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS

Om ti år vil klubbernes teknologiske fitness være en vigtig bidragyder til deres succes. I dag er vi allerede vidne til teknologiens potentiale til at revolutionere forståelsen af ​​fodbold. xMål kvantificerer og tillader sammenligning af målscoringspotentiale i enhver skudsituation, mens xTrussel , EPV modeller forudsiger værdien af ​​ethvert øjeblik i spillet. I sidste ende tjener disse og andre avancerede statistikker ét formål: at forbedre forståelsen af, hvem der vinder og hvorfor. Indtast den nye Bundesliga Match Fact: Win Probability.

I Bayerns anden kamp mod Bochum i sidste sæson vendte bordet uventet. Tidligt i kampen scorer Lewandowski til 1:0 efter blot 9 minutter. Den "grå mus" i ligaen bliver øjeblikkeligt mindet om deres 7:0-katastrofe, da de mødte Bayern for første gang i den sæson. Men ikke denne gang: Christopher Antwi-Adjei scorer sit første mål for klubben kun 5 minutter senere. Efter at have opfattet et straffemål i det 38. minut, virker holdet fra Monaco di Bavaria handlingslammet, og tingene begyndte at bryde ud: Gamboa muskatnød af Coman og afslutter med en absolut korker af et mål, og Holtmann gør det til 4:1 tæt på pausen med en dipper fra venstre. Bayern havde ikke tænkt så mange mål i første halvleg siden 1975, og var knap nok i stand til at gå væk med et 4:2-resultat. Hvem kunne have gættet det? Begge hold spillede uden deres førstekeepere, hvilket for Bayern betød at gå glip af deres anfører Manuel Neuer. Kunne hans tilstedeværelse have reddet dem fra dette uventede resultat?

På samme måde fik Köln to ekstraordinære pingers i sæsonen 2020/2021. Da de mødte Dortmund, havde de spillet 18 kampe uden sejr, mens BVB's Haaland leverede en mesterklasse i at score mål den sæson (23 i 22 kampe). Favoritrollen var klar, men alligevel tog Køln en tidlig føring med kun 9 minutter på uret. I begyndelsen af ​​anden halvleg scorede Skhiri et carbon-copy-mål af sit første: 0:2. Dortmund indtog angrebsstyrken, skabte store chancer og scorede 1:2. Af alle spillere savnede Haaland en sitter 5 minutter inde i forlænget spilletid og kronede Köln med de første 3 point i Dortmund efter næsten 30 år.

Senere på den sæson overraskede Köln – som var sidst på hjemmebanetabellen – RB Leipzig, som havde al motivationen til at lukke ind mod mesterskabslederen Bayern. Modstanderen Leipzig pressede "Billy Goats" med en holdsæsonrekord på 13 skud på mål i første halvleg, hvilket øgede deres i forvejen høje chancer for en sejr. Ironisk nok scorede Köln 1:0 med det første skud på mål i minut 46. Efter "Red Bulls" scorede en velfortjent udligning, sov de på et indkast blot 80 sekunder senere, hvilket førte til Jonas Hector scorede for Köln igen. Ligesom Dortmund lagde Leipzig nu al energi i offensiven, men det bedste, de formåede at opnå, var at ramme stolpen i overtiden.

For alle disse kampe ville både eksperter og nybegyndere fejlagtigt have gættet vinderen, selv langt inde i kampen. Men hvad er begivenhederne, der førte til disse overraskende udsving i spillet af sejrssandsynlighed? På hvilket minut overhalede underdogs chance for at vinde favorittens, da de løb tør for tid? Bundesligaen og AWS har arbejdet sammen for at beregne og illustrere live-udviklingen af ​​vinderchancer gennem kampene, hvilket gør det muligt for fans at se vigtige øjeblikke med sandsynlighedsudsving. Resultatet er den nye machine learning (ML)-drevne Bundesliga Match Fact: Win Probability.

Hvordan virker det?

Den nye Bundesliga Match Fact Win Probability blev udviklet ved at bygge ML-modeller, der analyserede over 1,000 historiske spil. Live-modellen tager estimaterne forud for kampen og justerer dem i henhold til kampens procedurer baseret på funktioner, der påvirker resultatet, herunder følgende:

  • Mål
  • sanktioner
  • Røde kort
  • Udskiftninger
  • Tiden gik
  • Der blev skabt målscoringchancer
  • Dødboldsituationer

Live-modellen trænes ved hjælp af en neural netværksarkitektur og bruger en Poisson-distributionsmetode til at forudsige en mål pr. minut-rate r for hvert hold, som beskrevet i følgende ligning:

Disse rater kan ses som et estimat af et holds styrke og beregnes ved hjælp af en række tætte lag baseret på input. Baseret på disse satser og forskellen mellem modstanderne, beregnes sandsynligheden for en sejr og uafgjort i realtid.

Input til modellen er en 3-tuple af inputfunktioner, aktuel målforskel og resterende spilletid i minutter.

Den første komponent af de tre inputdimensioner består af et funktionssæt, der beskriver den aktuelle spilhandling i realtid for begge hold i præstationsmålinger. Disse inkluderer forskellige aggregerede hold-baserede xG-værdier, med særlig opmærksomhed på de billeder, der er taget i de sidste 15 minutter før forudsigelsen. Vi behandler også røde kort, straffe, hjørnespark og antallet af farlige frispark. Et farligt frispark klassificeres som et frispark tættere end 25m på modstanderens mål. Under udviklingen af ​​modellen, udover indflydelsen fra de tidligere Bundesliga Match Fact xGoals, evaluerede vi også effekten af ​​Bundesliga Match Fact Skill i modellen. Det betyder, at modellen reagerer på udskiftning af topspillere - spillere med badges i færdighederne Finisher, Initiator eller Ball vinder.

Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Eksempel på vindsandsynlighed

Lad os se på en kamp fra indeværende sæson (2022/2023). Følgende graf viser sejrssandsynligheden for Bayern München og Stuttgart-kampen fra kampdag 6.

Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Pre-match modellen beregnede en sejrssandsynlighed på 67% for Bayern, 14% for Stuttgart og 19% for uafgjort. Når vi ser på kampens forløb, ser vi en stor effekt af mål scoret i minut 36′, 57′ og 60′. Indtil det første minut af overtiden var stillingen 2:1 til Bayern. Kun et vellykket straffeslag af S. Grassy i minut 90+2 sikrede uafgjort. Win Probability Live Model korrigerede derfor lodtrækningsprognosen fra 5 % til over 90 %. Resultatet er et uventet sent sving, hvor Bayerns sejrssandsynlighed faldt fra 90 % til 8 % i løbet af 90+2 minutter. Grafen er repræsentativ for udsvinget i atmosfæren i Allianz Arena den dag.

Hvordan implementeres det?

Win Probability bruger begivenhedsdata fra en igangværende kamp (målbegivenheder, overtrædelser, røde kort og mere) samt data produceret af andre kampfakta, såsom xGoals. Til realtidsopdateringer af sandsynligheder bruger vi Amazon administrerede streaming af Kafka (Amazon MSK) som en central datastreaming- og beskedløsning. På denne måde kan begivenhedsdata, positionsdata og output fra forskellige Bundesliga-kampfakta kommunikeres mellem containere i realtid.

Følgende diagram illustrerer end-to-end-arbejdsgangen for Win Probability.

Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Indsamlede match-relaterede data bliver indtaget gennem en ekstern udbyder (DataHub). Metadata af kampen indtages og behandles i en AWS Lambda fungere. Positioner og begivenhedsdata indtages gennem en AWS Fargate container (MatchLink). Alle indtagne data publiceres derefter til forbrug i respektive MSK-emner. Hjertet i Win Probability Match Fact sidder i en dedikeret Fargate-container (BMF WinProbability), som kører i løbet af det respektive match og bruger alle nødvendige data opnået gennem Amazon MSK. ML-modellerne (live og pre-match) er indsat på Amazon SageMaker Serverløse slutningspunkter. Serverløse slutpunkter starter automatisk beregningsressourcer og skalerer disse beregningsressourcer afhængigt af indgående trafik, hvilket eliminerer behovet for at vælge instanstyper eller administrere skaleringspolitikker. Med denne betal-pr-brug-model er Serverless Inference ideel til arbejdsbelastninger, der har inaktive perioder mellem trafikken. Når der ikke er nogen Bundesliga-kampe, er der ingen omkostninger til ledige ressourcer.

Kort før kick-off genererer vi vores første sæt funktioner og beregner sandsynligheden for sejr før kampen ved at kalde PreMatch SageMaker-slutpunktet. Med disse PreMatch-sandsynligheder initialiserer vi derefter live-modellen, som reagerer i realtid på relevante begivenheder i spillet og konstant bliver spurgt om at modtage aktuelle gevinstsandsynligheder.

De beregnede sandsynligheder sendes derefter tilbage til DataHub for at blive leveret til andre MatchFacts-forbrugere. Sandsynligheder sendes også til MSK-klyngen til et dedikeret emne, der skal forbruges af andre Bundesliga-kampfakta. En Lambda-funktion forbruger alle sandsynligheder fra det respektive Kafka-emne og skriver dem til en Amazon Aurora database. Disse data bruges derefter til interaktive næsten-realtidsvisualiseringer ved hjælp af Amazon QuickSight.

Bundesliga Match Fact Win Probability: Kvantificering af effekten af ​​in-game events på vinderchancer ved hjælp af machine learning på AWS PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Resumé

I dette indlæg demonstrerede vi, hvordan den nye Bundesliga Match Fact Win Probability viser indflydelsen af ​​begivenheder i spillet på chancerne for, at et hold vinder eller taber en kamp. For at gøre det bygger vi på og kombinerer tidligere offentliggjorte Bundesliga-kampfakta i realtid. Dette giver kommentatorer og fans mulighed for at afdække øjeblikke med sandsynlighedsudsving og mere under live-kampe.

Den nye Bundesliga Match Fact er resultatet af en dybdegående analyse foretaget af Bundesligaens fodboldeksperter og AWS-dataforskere. Sejrssandsynlighederne vises i live-tickeren for de respektive kampe i den officielle Bundesliga-app. Under en udsendelse gives der vindsandsynligheder til kommentatorer gennem datahistoriefinder og visuelt vist til fans på vigtige tidspunkter, såsom når underdog tager føringen og nu er mest sandsynligt at vinde spillet.

Vi håber, at du nyder dette splinternye Bundesliga-kampfakta, og at det giver dig ny indsigt i spillet. For at lære mere om partnerskabet mellem AWS og Bundesligaen, besøg Bundesligaen på AWS!

Vi er spændte på at lære, hvilke mønstre du vil afdække. Del din indsigt med os: @AWScloud på Twitter, med hashtagget #BundesligaMatchFacts.


Om forfatterne

simon rolfes spillet 288 Bundesliga-kampe som central midtbanespiller, scoret 41 mål og vundet 26 landskampe for Tyskland. I øjeblikket fungerer Rolfes som Managing Director Sport hos Bayer 04 Leverkusen, hvor han overvåger og udvikler den professionelle spillerliste, scoutingafdelingen og klubbens ungdomsudvikling. Simon skriver også ugentlige klummer om Bundesliga.com om de seneste Bundesliga-kampfakta powered by AWS. Der tilbyder han sin ekspertise som tidligere spiller, kaptajn og tv-analytiker for at fremhæve virkningen af ​​avanceret statistik og maskinlæring i fodboldens verden.

Tareq Haschemi er konsulent indenfor AWS Professional Services. Hans færdigheder og ekspertiseområder omfatter applikationsudvikling, datavidenskab, machine learning og big data. Han støtter kunder med at udvikle datadrevne applikationer i skyen. Før han kom til AWS, var han også konsulent i forskellige brancher som luftfart og telekommunikation. Han brænder for at aktivere kunder på deres data/AI-rejse til skyen.

Javier Poveda-Panter er Data Scientist for EMEA-sportskunder inden for AWS Professional Services-teamet. Han sætter kunder inden for tilskuersport i stand til at innovere og udnytte deres data og levere bruger- og fanoplevelser af høj kvalitet gennem maskinlæring og datavidenskab. Han følger sin passion for en bred vifte af sport, musik og kunstig intelligens i sin fritid.

Luuk Figdor er sportsteknologirådgiver i AWS Professional Services-teamet. Han arbejder med spillere, klubber, ligaer og medievirksomheder som Bundesligaen og Formel 1 for at hjælpe dem med at fortælle historier med data ved hjælp af maskinlæring. I sin fritid kan han lide at lære alt om sindet og krydsfeltet mellem psykologi, økonomi og AI.

Gabriel Zylka er Machine Learning Engineer inden for AWS Professional Services. Han arbejder tæt sammen med kunderne for at fremskynde deres cloud-adoptionsrejse. Han er specialiseret i MLOps-domænet og fokuserer på at producere maskinlærings-arbejdsbelastninger ved at automatisere end-to-end machine learning-livscyklusser og hjælpe med at opnå de ønskede forretningsresultater.

Jakub Michalczyk er dataforsker hos Sportec Solutions AG. For flere år siden valgte han matematikstudiet frem for at spille fodbold, da han kom frem til, at han ikke var god nok til det sidste. Nu kombinerer han begge disse passioner i sin professionelle karriere ved at anvende maskinlæringsmetoder for at få et bedre indblik i dette smukke spil. I sin fritid nyder han stadig at spille syvmandsfodbold, se krimi og lytte til filmmusik.

Tidsstempel:

Mere fra AWS maskinindlæring