Bundesliga-Spielfakten Gewinnwahrscheinlichkeit: Quantifizierung der Auswirkung von Ereignissen im Spiel auf die Gewinnchancen mithilfe von maschinellem Lernen auf AWS

Neuauflage von Plato

Verfolger: 0

In zehn Jahren wird die technologische Fitness der Clubs ein wesentlicher Erfolgsfaktor sein. Schon heute erleben wir das Potenzial der Technologie, das Fußballverständnis zu revolutionieren. xZiele quantifiziert und ermöglicht den Vergleich des Torschusspotentials jeder Schusssituation, während xBedrohung und EPV Modelle sagen den Wert jedes Moments im Spiel voraus. Letztendlich dienen diese und andere fortschrittliche Statistiken einem Zweck: das Verständnis dafür zu verbessern, wer gewinnen wird und warum. Geben Sie den neuen Bundesliga-Match-Fakt ein: Gewinnwahrscheinlichkeit.

Im zweiten Spiel der Bayern gegen Bochum in der vergangenen Saison wendete sich das Blatt unerwartet. Zu Beginn des Spiels erzielt Lewandowski nach nur 1 Minuten das 0:9. Die „Graue Maus“ der Liga erinnert sich sofort an das 7:0-Desaster beim ersten Duell mit den Bayern in dieser Saison. Aber diesmal nicht: Christopher Antwi-Adjei erzielt nur 5 Minuten später sein erstes Tor für den Verein. Nach einem Elfmetertor in der 38. Minute scheint das Team von Monaco di Bavaria wie gelähmt und es brodelt: Gamboa überrollt Coman und schließt mit einem absoluten Torerfolg ab, Holtmann macht kurz vor Halbzeit per Dipper zum 4:1 von links. So viele Tore hatte der FC Bayern in der ersten Halbzeit seit 1975 nicht mehr zustande gebracht und konnte nur knapp mit 4:2 davonziehen. Wer hätte das ahnen können? Beide Mannschaften spielten ohne ihren Stammtorhüter, was für die Bayern bedeutete, auf Kapitän Manuel Neuer zu verzichten. Hätte seine Anwesenheit sie vor diesem unerwarteten Ergebnis bewahren können?

Auch Köln hat in der Saison 2020/2021 zwei außergewöhnliche Glanzlichter hingelegt. Gegen Dortmund waren sie 18 Spiele ohne Sieg, während Haaland vom BVB in dieser Saison eine Meisterklasse im Toreschießen ablieferte (23 in 22 Spielen). Die Favoritenrolle war klar, dennoch ging Köln mit nur 9 Minuten auf der Uhr früh in Führung. Zu Beginn der zweiten Halbzeit erzielte Skhiri eine Kopie seines ersten Tores: 0:2. Dortmund stellte sich offensiv stark ein, erspielte sich Großchancen und traf zum 1:2. Ausgerechnet Haaland verpasste in der 5. Minute der Verlängerung einen Sitter und krönte Köln mit den ersten 3 Punkten in Dortmund nach fast 30 Jahren.

Später in dieser Saison überraschte Köln als Tabellenletzter in der Heimtabelle RB Leipzig, das alle Motivation hatte, auf Tabellenführer Bayern aufzuschließen. Gegner Leipzig setzte die „Geißböcke“ mit einem Mannschafts-Saisonrekord von 13 Torschüssen in der ersten Halbzeit unter Druck und erhöhte damit ihre ohnehin schon hohen Siegchancen. Ironischerweise erzielte Köln mit dem ersten Torschuss in Minute 1 das 0:46. Nachdem die „Roten Bullen“ den hochverdienten Ausgleich erzielten, verschlafen sie nur 80 Sekunden später einen Einwurf, der zum Treffer von Jonas Hector für Köln führte wieder. Genau wie Dortmund steckte Leipzig nun alle Energie in die Offensive, aber das Beste, was sie erreichten, war der Pfostenschuss in der Verlängerung.

Bei all diesen Matches hätten Experten und Anfänger den Sieger selbst weit im Match falsch erraten. Aber was sind die Ereignisse, die zu diesen überraschenden Schwankungen der Gewinnwahrscheinlichkeit im Spiel geführt haben? In welcher Minute übertraf die Siegchance des Außenseiters die des Favoriten, da ihm die Zeit davonlief? Bundesliga und AWS haben zusammengearbeitet, um die Live-Entwicklung von Gewinnchancen während der Spiele zu berechnen und zu veranschaulichen, damit die Fans Schlüsselmomente von Wahrscheinlichkeitsschwankungen sehen können. Das Ergebnis ist der neue, auf maschinellem Lernen (ML) basierende Bundesliga Match Fact: Win Probability.

Wie funktioniert es?

Die neue Bundesliga Match Fact Win Probability wurde entwickelt, indem ML-Modelle erstellt wurden, die über 1,000 historische Spiele analysierten. Das Live-Modell nimmt die Schätzungen vor dem Spiel und passt sie entsprechend dem Spielverlauf an, basierend auf Merkmalen, die das Ergebnis beeinflussen, einschließlich der folgenden:

Ziele
Strafen
Rote Karten
Auswechslungen
Zeit verging
Torchancen geschaffen
Standardsituationen

Das Live-Modell wird mit einer neuronalen Netzwerkarchitektur trainiert und verwendet einen Poisson-Verteilungsansatz, um eine Tore-pro-Minute-Rate vorherzusagen r für jedes Team, wie in der folgenden Gleichung beschrieben:

Diese Raten können als Schätzung der Stärke eines Teams angesehen werden und werden anhand einer Reihe dichter Schichten basierend auf den Eingaben berechnet. Basierend auf diesen Quoten und der Differenz zwischen den Gegnern werden die Wahrscheinlichkeiten für einen Sieg und ein Unentschieden in Echtzeit berechnet.

Die Eingabe für das Modell ist ein 3-Tupel von Eingabemerkmalen, der aktuellen Tordifferenz und der verbleibenden Spielzeit in Minuten.

Die erste Komponente der drei Input-Dimensionen besteht aus einem Feature-Set, das das aktuelle Spielgeschehen in Echtzeit für beide Teams in Leistungskennzahlen beschreibt. Dazu gehören verschiedene aggregierte teambasierte xG-Werte, mit besonderem Augenmerk auf die Schüsse, die in den letzten 15 Minuten vor der Vorhersage gemacht wurden. Wir verarbeiten auch rote Karten, Elfmeter, Eckbälle und die Anzahl gefährlicher Freistöße. Als gefährlicher Freistoß wird ein Freistoß näher als 25 m zum gegnerischen Tor gewertet. Während der Entwicklung des Modells haben wir neben dem Einfluss des ehemaligen Bundesliga Match Fact xGoals auch den Einfluss des Bundesliga Match Fact Skill im Modell evaluiert. Das bedeutet, dass das Modell auf die Auswechslung von Topspielern reagiert – Spieler mit Abzeichen in den Fähigkeiten Finisher, Initiator oder Ballwinner.

Beispiel Gewinnwahrscheinlichkeit

Schauen wir uns ein Spiel aus der aktuellen Saison (2022/2023) an. Die folgende Grafik zeigt die Siegwahrscheinlichkeit für das Spiel zwischen Bayern München und Stuttgart ab dem 6. Spieltag.

Das Pre-Match-Modell errechnete eine Siegwahrscheinlichkeit von 67 % für Bayern, 14 % für Stuttgart und 19 % für ein Unentschieden. Wenn wir uns den Verlauf des Spiels ansehen, sehen wir einen großen Einfluss von Toren, die in Minute 36, 57 und 60 erzielt wurden. Bis zur ersten Minute der Verlängerung stand es 2:1 für die Bayern. Erst ein gelungener Elfmeter von S. Grassy in Minute 90+2 sicherte ein Unentschieden. Das Gewinnwahrscheinlichkeits-Live-Modell korrigierte daher die Unentschieden-Prognose von 5 % auf über 90 %. Die Folge ist ein unerwarteter Spätschwung, bei dem die Siegwahrscheinlichkeit der Bayern in der Minute 90+8 von 90 % auf 2 % sinkt. Die Grafik ist repräsentativ für den Stimmungsumschwung in der Allianz Arena an diesem Tag.

Wie wird es umgesetzt?

Die Gewinnwahrscheinlichkeit verwendet Ereignisdaten aus einem laufenden Spiel (Torereignisse, Fouls, rote Karten und mehr) sowie Daten, die von anderen Match Facts wie xGoals erzeugt werden. Für Echtzeitaktualisierungen von Wahrscheinlichkeiten verwenden wir Von Amazon verwaltetes Streaming Kafka (Amazon MSK) als zentrale Datenstreaming- und Messaging-Lösung. Auf diese Weise können Ereignisdaten, Positionsdaten und Ausgaben verschiedener Bundesliga Match Facts in Echtzeit zwischen Containern kommuniziert werden.

Das folgende Diagramm veranschaulicht den End-to-End-Workflow für Win Probability.

Gesammelte spielbezogene Daten werden über einen externen Anbieter (DataHub) aufgenommen. Metadaten des Spiels werden in einem aufgenommen und verarbeitet AWS Lambda Funktion. Positions- und Ereignisdaten werden über ein aufgenommen AWS Fargate Container (MatchLink). Alle aufgenommenen Daten werden dann zur Nutzung in den jeweiligen MSK-Themen veröffentlicht. Das Herzstück des Win Probability Match Fact befindet sich in einem dedizierten Fargate-Container (BMF WinProbability), der für die Dauer des jeweiligen Spiels läuft und alle erforderlichen Daten verbraucht, die über Amazon MSK erhalten wurden. Die ML-Modelle (Live und Pre-Match) werden auf bereitgestellt Amazon Sage Maker Serverlose Inferenz-Endpunkte. Serverlose Endpunkte starten automatisch Computing-Ressourcen und skalieren diese Computing-Ressourcen je nach eingehendem Datenverkehr, wodurch die Notwendigkeit entfällt, Instanztypen auszuwählen oder Skalierungsrichtlinien zu verwalten. Mit diesem Pay-per-Use-Modell ist Serverless Inference ideal für Workloads mit Leerlaufzeiten zwischen Datenverkehrsspitzen. Wenn keine Bundesligaspiele stattfinden, fallen keine Kosten für ungenutzte Ressourcen an.

Kurz vor dem Anpfiff generieren wir unsere ersten Features und berechnen die Gewinnwahrscheinlichkeiten vor dem Spiel, indem wir den SageMaker-Endpunkt von PreMatch aufrufen. Mit diesen PreMatch-Wahrscheinlichkeiten initialisieren wir dann das Live-Modell, das in Echtzeit auf relevante In-Game-Events reagiert und kontinuierlich nach aktuellen Gewinnwahrscheinlichkeiten abgefragt wird.

Die berechneten Wahrscheinlichkeiten werden dann an DataHub zurückgesendet, um sie anderen MatchFacts-Konsumenten zur Verfügung zu stellen. Wahrscheinlichkeiten werden auch an das MSK-Cluster zu einem bestimmten Thema gesendet, um von anderen Bundesliga-Spielfakten verwendet zu werden. Eine Lambda-Funktion konsumiert alle Wahrscheinlichkeiten aus dem jeweiligen Kafka-Thema und schreibt sie in eine Amazonas-Aurora Datenbank. Diese Daten werden dann für interaktive Nahe-Echtzeit-Visualisierungen verwendet Amazon QuickSight.

Zusammenfassung

In diesem Beitrag haben wir demonstriert, wie die neue Bundesliga-Spielfakten-Siegwahrscheinlichkeit die Auswirkungen von Ereignissen im Spiel auf die Wahrscheinlichkeit zeigt, dass ein Team ein Spiel gewinnt oder verliert. Dazu bauen wir auf und kombinieren zuvor veröffentlichte Bundesliga Match Facts in Echtzeit. Dadurch können Kommentatoren und Fans Momente von Wahrscheinlichkeitsschwankungen und mehr während Live-Spielen aufdecken.

Der neue Bundesliga Match Fact ist das Ergebnis einer eingehenden Analyse durch die Fußballexperten der Bundesliga und AWS Data Scientists. Gewinnwahrscheinlichkeiten werden im Liveticker der jeweiligen Spiele in der offiziellen Bundesliga-App angezeigt. Während einer Sendung werden den Kommentatoren Gewinnwahrscheinlichkeiten über bereitgestellt Datenstory-Finder und den Fans in Schlüsselmomenten visuell gezeigt werden, z. B. wenn der Außenseiter in Führung geht und nun höchstwahrscheinlich das Spiel gewinnt.

Wir hoffen, dass Ihnen dieser brandneue Bundesliga Match Fact gefällt und Ihnen neue Einblicke in das Spiel bietet. Um mehr über die Partnerschaft zwischen AWS und der Bundesliga zu erfahren, besuchen Sie Bundesliga auf AWS!

Wir sind gespannt, welche Muster Sie entdecken werden. Teilen Sie Ihre Erkenntnisse mit uns: @AWScloud auf Twitter, mit dem Hashtag #BundesligaMatchFacts.

Über die Autoren

Simon Rolfes Als zentraler Mittelfeldspieler bestritt er 288 Bundesligaspiele, erzielte 41 Tore und bestritt 26 Länderspiele für Deutschland. Derzeit ist Rolfes als Geschäftsführer Sport bei Bayer 04 Leverkusen tätig, wo er den Kader der Profispieler, die Scouting-Abteilung und die Nachwuchsförderung des Vereins betreut und weiterentwickelt. Simon schreibt auch wöchentlich Kolumnen auf Bundesliga.com über die neuesten Bundesliga-Match-Fakten powered by AWS. Dort bietet er seine Expertise als ehemaliger Spieler, Kapitän und TV-Analyst an, um die Auswirkungen fortschrittlicher Statistiken und maschinellen Lernens auf die Welt des Fußballs hervorzuheben.

Tareq Haschemi ist Berater bei AWS Professional Services. Seine Fähigkeiten und Fachgebiete umfassen Anwendungsentwicklung, Data Science, maschinelles Lernen und Big Data. Er unterstützt Kunden bei der Entwicklung datengetriebener Anwendungen innerhalb der Cloud. Bevor er zu AWS kam, war er auch als Berater in verschiedenen Branchen wie Luftfahrt und Telekommunikation tätig. Er engagiert sich leidenschaftlich dafür, Kunden auf ihrer Daten-/KI-Reise in die Cloud zu unterstützen.

Javier Poveda-Panter ist Data Scientist für EMEA-Sportkunden im AWS Professional Services-Team. Er ermöglicht es Kunden im Bereich des Zuschauersports, innovativ zu sein und aus ihren Daten Kapital zu schlagen, indem er durch maschinelles Lernen und Data Science hochwertige Benutzer- und Fanerlebnisse liefert. In seiner Freizeit geht er seiner Leidenschaft für ein breites Spektrum an Sport, Musik und KI nach.

Luuk Figdor ist Sports Technology Advisor im AWS Professional Services-Team. Er arbeitet mit Spielern, Vereinen, Ligen und Medienunternehmen wie der Bundesliga und der Formel 1 zusammen, um ihnen dabei zu helfen, mithilfe von maschinellem Lernen Geschichten mit Daten zu erzählen. In seiner Freizeit lernt er gerne alles über den Verstand und die Schnittstelle zwischen Psychologie, Ökonomie und KI.

Gabriel Zylka ist Machine Learning Engineer bei AWS Professional Services. Er arbeitet eng mit Kunden zusammen, um deren Einführung in die Cloud zu beschleunigen. Er ist auf die MLOps-Domäne spezialisiert und konzentriert sich auf die Produktion von Arbeitslasten für maschinelles Lernen, indem er End-to-End-Lebenszyklen für maschinelles Lernen automatisiert und dabei hilft, die gewünschten Geschäftsergebnisse zu erzielen.

Jakob Michalczyk ist Data Scientist bei der Sportec Solutions AG. Vor einigen Jahren entschied er sich für ein Mathe-Studium statt Fußball zu spielen, da er zu dem Schluss kam, dass er in letzterem nicht gut genug war. Jetzt kombiniert er diese beiden Leidenschaften in seiner beruflichen Laufbahn, indem er Methoden des maschinellen Lernens anwendet, um einen besseren Einblick in dieses schöne Spiel zu erhalten. In seiner Freizeit spielt er immer noch gerne XNUMXer-Fußball, schaut sich Krimis an und hört Filmmusik.

Zeitstempel: 30. September 202230. September 2022

Zeitstempel: 16. Nov 2023

Bundesliga Match Fact Win Probability: Quantifizierung der Auswirkung von In-Game-Events auf die Gewinnchancen mithilfe von maschinellem Lernen auf AWS

Neuauflage von Plato

Wie funktioniert es?

Beispiel Gewinnwahrscheinlichkeit

Wie wird es umgesetzt?

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Erstellen Sie Amazon SageMaker-Modelle mit dem PyTorch Model Zoo

Erstellen Sie leistungsstarke Self-Service-Erlebnisse mit Amazon Lex im Contact Center von Talkdesk CX Cloud

Einführung von Self-Service-Kontingentverwaltung und höheren Standard-Servicekontingenten für Amazon Textract

Intelligente Dokumentenverarbeitung mit AWS AI-Services: Teil 1

Bereitstellen und Verwalten von ML-Umgebungen mit Amazon SageMaker Canvas unter Verwendung von AWS CDK und AWS Service Catalog

Verbessern Sie die Preisleistung Ihres Modelltrainings mit heterogenen Amazon SageMaker-Clustern

Interaktives Datenvorbereitungs-Widget für Notebooks powered by Amazon SageMaker Data Wrangler

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto