Przewiduj bramki powrotne i powrotne piłki nożnej z rozkładem grubym za pomocą GluonTS

Opublikowane ponownie przez Plato

Obserwuje: 0

Dzisiaj NFL kontynuuje swoją podróż, aby zwiększyć liczbę statystyk dostarczanych przez Platforma statystyk nowej generacji wszystkim 32 drużynom i kibicom. Dzięki zaawansowanej analityce wywodzącej się z uczenia maszynowego (ML) NFL tworzy nowe sposoby ilościowego określania piłki nożnej i zapewnia fanom narzędzia potrzebne do zwiększenia ich wiedzy na temat piłki nożnej. gry w grze piłki nożnej. W sezonie 2022 celem NFL było wykorzystanie danych śledzenia graczy i nowych zaawansowanych technik analitycznych aby lepiej zrozumieć zespoły specjalne.

Celem projektu było przewidzenie, ile jardów zyska powracający podczas gry puntem lub kickoffem. Jednym z wyzwań podczas budowania modeli predykcyjnych dla zwrotów z puntów i kickoffów jest dostępność bardzo rzadkich zdarzeń — takich jak przyłożenia — które mają istotne znaczenie w dynamice gry. Dystrybucja danych z grubymi ogonami jest powszechna w rzeczywistych aplikacjach, w których rzadkie zdarzenia mają znaczący wpływ na ogólną wydajność modeli. Zastosowanie solidnej metody do dokładnego modelowania rozkładu w ekstremalnych zdarzeniach ma kluczowe znaczenie dla lepszej ogólnej wydajności.

W tym poście pokazujemy, jak wykorzystać dystrybucję Spliced Binned-Pareto zaimplementowaną w GluonTS do solidnego modelowania takich rozkładów z grubymi ogonami.

Najpierw opisujemy używany zestaw danych. Następnie przedstawiamy wstępne przetwarzanie danych i inne metody transformacji zastosowane do zbioru danych. Następnie wyjaśniamy szczegóły metodologii ML i procedury szkolenia modeli. Na koniec przedstawiamy wyniki działania modelu.

Dataset

W tym poście użyliśmy dwóch zestawów danych do zbudowania oddzielnych modeli dla zwrotów z punt i kickoff. Dane śledzenia gracza zawierają pozycję gracza, kierunek, przyspieszenie i inne (we współrzędnych x, y). Istnieje około 3,000 i 4,000 zagrań z czterech sezonów NFL (2018–2021) odpowiednio dla gier punt i kickoff. Ponadto w zbiorach danych jest bardzo niewiele przyłożeń związanych z puntem i kickoffem — odpowiednio tylko 0.23% i 0.8%. Dystrybucja danych dla puntu i kickoffu jest inna. Na przykład rzeczywisty rozkład odległości dla kickoffów i puntów jest podobny, ale przesunięty, jak pokazano na poniższym rysunku.

Rozmieszczenie jardów powrotnych puntów i kickoffów

Wstępne przetwarzanie danych i inżynieria funkcji

Najpierw dane śledzenia zostały przefiltrowane pod kątem danych związanych z puntami i zwrotami z kickoffów. Dane gracza zostały wykorzystane do uzyskania funkcji do opracowania modelu:

X – Pozycja zawodnika wzdłuż długiej osi boiska
Y – Pozycja zawodnika wzdłuż krótszej osi boiska
S – Prędkość w jardach/sekundę; zastąpione przez Dis * 10, aby było dokładniejsze (Dis to odległość w ciągu ostatnich 0.1 sekundy)
Państwo – Kąt ruchu gracza (w stopniach)

Z poprzednich danych każda gra została przekształcona w 10X11X14 danych z 10 ofensywnymi graczami (z wyłączeniem posiadającego piłkę), 11 obrońcami i 14 cechami pochodnymi:

sX – x prędkość gracza
sY – y prędkość gracza
s – Szybkość gracza
aX – x przyspieszenie gracza
aY – przyspieszenie y gracza
reX – x odległość zawodnika względem niosącego piłkę
polegać – y odległość zawodnika od niosącego piłkę
relSx – x prędkość gracza względem niosącego piłkę
RelSy – y prędkość zawodnika względem niosącego piłkę
rozdz.rel – Euklidesowa odległość zawodnika od niosącego piłkę
przeciwX – x odległość zawodnika ataku w stosunku do zawodnika obrony
opY – y odległość zawodnika atakującego względem zawodnika obrony
przeciwSx –x prędkość gracza atakującego w stosunku do gracza broniącego
oppSy – y prędkość zawodnika atakującego w stosunku do zawodnika obrony

Aby rozszerzyć dane i uwzględnić prawą i lewą pozycję, wartości pozycji X i Y zostały również odzwierciedlone w celu uwzględnienia pozycji prawego i lewego pola. Wstępne przetwarzanie danych i inżynieria funkcji zostały zaadaptowane ze zwycięzcy konkursu Miska Big Data NFL konkurs na Kaggle.

Metodologia ML i szkolenie z modeli

Ponieważ interesują nas wszystkie możliwe wyniki gry, w tym prawdopodobieństwo przyłożenia, nie możemy po prostu przewidzieć średniej liczby zdobytych jardów jako problemu regresji. Musimy przewidzieć pełny rozkład prawdopodobieństwa wszystkich możliwych przyrostów podwórka, więc sformułowaliśmy problem jako prognozę probabilistyczną.

Jednym ze sposobów wdrożenia prognoz probabilistycznych jest przypisanie zdobytych jardów do kilku przedziałów (takich jak mniej niż 0, od 0 do 1, od 1 do 2, …, od 14 do 15, więcej niż 15) i przewidywanie przedziału jako klasyfikacji problem. Wadą tego podejścia jest to, że chcemy, aby małe pojemniki miały obraz rozkładu w wysokiej rozdzielczości, ale małe pojemniki oznaczają mniej punktów danych na pojemnik, a nasz rozkład, zwłaszcza ogony, może być słabo oszacowany i nieregularny.

Innym sposobem implementacji prognoz probabilistycznych jest modelowanie danych wyjściowych jako ciągłego rozkładu prawdopodobieństwa z ograniczoną liczbą parametrów (na przykład rozkład Gaussa lub Gamma) i przewidywanie parametrów. Takie podejście daje bardzo wyraźny i regularny obraz rozkładu, ale jest zbyt sztywne, aby pasowało do rzeczywistego rozkładu uzyskanych jardów, który jest multimodalny i mocno ogoniasty.

Aby uzyskać najlepsze z obu metod, używamy Spliced Dystrybucja Binned-Pareto (SBP), który ma pojemniki dla centrum dystrybucji, gdzie dostępnych jest wiele danych, oraz Uogólniony rozkład Pareto (GPD) na obu końcach, gdzie mogą się zdarzyć rzadkie, ale ważne zdarzenia, takie jak przyłożenie. GPD ma dwa parametry: jeden dla skali i jeden dla ciężkości ogona, jak widać na poniższym wykresie (źródło: Wikipedia).

Łącząc GPD z dystrybucją binowaną (patrz poniższy lewy wykres) po obu stronach, uzyskujemy następujący SBP po prawej stronie. Dolne i górne progi, w których odbywa się splicing, to hiperparametry.

Dystrybucje Binned i SPB

Jako linię bazową wykorzystaliśmy model, który wygrał nasz Miska Big Data NFL konkurs na Kaggle. Model ten wykorzystuje warstwy CNN do wyodrębniania cech z przygotowanych danych i przewiduje wynik jako problem klasyfikacyjny „1 jard na pojemnik”. W naszym modelu zachowaliśmy warstwy ekstrakcji cech z linii bazowej i zmodyfikowaliśmy tylko ostatnią warstwę, aby wyprowadzić parametry SBP zamiast prawdopodobieństw dla każdego przedziału, jak pokazano na poniższym rysunku (obraz edytowany z postu 1. miejsce rozwiązanie Zoo).

Architektura modelu

Wykorzystaliśmy dystrybucję SBP dostarczoną przez GluonTS. GluonTS to pakiet Pythona do probabilistycznego modelowania szeregów czasowych, ale dystrybucja SBP nie jest specyficzna dla szeregów czasowych i udało nam się ponownie wykorzystać go do regresji. Aby uzyskać więcej informacji na temat korzystania z GluonTS SBP, zobacz poniższą prezentację notatnik.

Modele zostały przeszkolone i poddane walidacji krzyżowej w sezonach 2018, 2019 i 2020 oraz przetestowane w sezonie 2021. Aby uniknąć przecieków podczas weryfikacji krzyżowej, zgrupowaliśmy wszystkie gry z tej samej gry w tej samej części.

Do oceny zachowaliśmy metrykę używaną w konkursie Kaggle, tj ciągły rankingowy wynik prawdopodobieństwa (CRPS), co można postrzegać jako alternatywę dla logarytmu wiarygodności, który jest bardziej odporny na wartości odstające. Korzystaliśmy również z Współczynnik korelacji Pearsona oraz RMSE jako ogólne i interpretowalne wskaźniki dokładności. Ponadto przyjrzeliśmy się prawdopodobieństwu przyziemienia i wykresom prawdopodobieństwa, aby ocenić kalibrację.

Model został przeszkolony w zakresie utraty CRPS za pomocą Stochastyczne uśrednianie wagi i wczesnego zatrzymania.

Aby uporać się z nieregularnością podzielonej części rozkładów wyjściowych, zastosowaliśmy dwie techniki:

Kara za gładkość proporcjonalna do kwadratu różnicy między dwoma kolejnymi przedziałami
Tworzenie modeli trenowanych podczas walidacji krzyżowej

Modelowe wyniki wydajności

Dla każdego zestawu danych przeprowadziliśmy wyszukiwanie siatki według następujących opcji:

Modele probabilistyczne
- Linią bazową było jedno prawdopodobieństwo na jard
- SBP było jednym prawdopodobieństwem na jard w środku, uogólnionym SBP w ogonach
Wygładzanie dystrybucji
- Brak wygładzania (kara za gładkość = 0)
- Kara za gładkość = 5
- Kara za gładkość = 10
Procedura uczenia i wnioskowania
- 10-krotna walidacja krzyżowa i wnioskowanie zespołowe (k10)
- Szkolenie z danych pociągu i walidacji dla 10 lub 20 epok

Następnie przyjrzeliśmy się wskaźnikom dla pięciu najlepszych modeli posortowanych według CRPS (im niższy, tym lepszy).

W przypadku danych kickoff model SBP jest nieco lepszy pod względem CRPS, ale co ważniejsze, lepiej szacuje prawdopodobieństwo przyziemienia (prawdziwe prawdopodobieństwo wynosi 0.80% w zbiorze testowym). Widzimy, że najlepsze modele używają 10 fałd (k10) i nie mają kary za gładkość, jak pokazano w poniższej tabeli.

Trening	Model	Gładkość	CRPS	RMSE	CORR%	P (przyziemienie)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Baseline	0	4.074	9.62	47.585	0.306
k10	Baseline	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Baseline	10	4.08	9.621	47.519	0.265

Poniższy wykres obserwowanych częstości i przewidywanych prawdopodobieństw wskazuje na dobrą kalibrację naszego najlepszego modelu, z RMSE równym 0.27 między dwoma rozkładami. Zwróć uwagę na przypadki dużego metrażu (na przykład 100), które występują w ogonie prawdziwego (niebieskiego) rozkładu empirycznego, którego prawdopodobieństwa są lepiej uchwycone przez SBP niż metodę bazową.

Kickoff obserwowane częstotliwości i przewidywany rozkład prawdopodobieństwa

W przypadku danych puntowych linia bazowa przewyższa SBP, być może dlatego, że ogony ekstremalnych metrów mają mniej realizacji. Dlatego lepszym kompromisem jest uchwycenie modalności między szczytami 0–10 jardów; iw przeciwieństwie do danych dotyczących kickoffu, najlepszy model wykorzystuje karę za gładkość. Poniższa tabela podsumowuje nasze ustalenia.

Trening	Model	Gładkość	CRPS	RMSE	CORR%	P (przyziemienie)%
k10	Baseline	5	3.961	8.313	35.227	0.547
k10	Baseline	0	3.972	8.346	34.227	0.579
k10	Baseline	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Poniższy wykres obserwowanych częstotliwości (na niebiesko) i przewidywanych prawdopodobieństw dla dwóch najlepszych modeli punt wskazuje, że model niewygładzony (na pomarańczowo) jest nieco lepiej skalibrowany niż model wygładzony (na zielono) i ogólnie może być lepszym wyborem.

Prawdopodobieństwo prawdziwe i przewidywane

Wnioski

W tym poście pokazaliśmy, jak budować modele predykcyjne z dystrybucją danych z grubym ogonem. Użyliśmy dystrybucji Spliced Binned-Pareto, zaimplementowanej w GluonTS, która może solidnie modelować takie rozkłady z grubymi ogonami. Wykorzystaliśmy tę technikę do zbudowania modeli zwrotów z puntów i kickoffów. Możemy zastosować to rozwiązanie do podobnych przypadków użycia, w których występuje bardzo mało zdarzeń w danych, ale zdarzenia te mają znaczący wpływ na ogólną wydajność modeli.

Jeśli potrzebujesz pomocy w przyspieszeniu stosowania ML w swoich produktach i usługach, skontaktuj się z Laboratorium rozwiązań Amazon ML program.

O autorach

Przewiduj miejsca powrotów i powrotów piłki nożnej z dokładną dystrybucją za pomocą GluonTS PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Tesfagabir Meharizghi jest analitykiem danych w Laboratorium rozwiązań Amazon ML gdzie pomaga klientom AWS z różnych branż, takich jak opieka zdrowotna i nauki przyrodnicze, produkcja, motoryzacja, sport i media, przyspieszyć ich wykorzystanie uczenia maszynowego i usług chmurowych AWS w rozwiązywaniu ich wyzwań biznesowych.

Marca van Oudheusdena jest starszym analitykiem danych w zespole Amazon ML Solutions Lab w Amazon Web Services. Współpracuje z klientami AWS przy rozwiązywaniu problemów biznesowych za pomocą sztucznej inteligencji i uczenia maszynowego. Poza pracą można go spotkać na plaży, bawiącego się z dziećmi, surfującego czy kitesurfingowego.

Panpan Xu jest starszym naukowcem i menedżerem w laboratorium Amazon ML Solutions Lab w AWS. Pracuje nad badaniami i rozwojem algorytmów uczenia maszynowego dla aplikacji klientów o dużym wpływie w różnych branżach przemysłowych, aby przyspieszyć ich adopcję w zakresie sztucznej inteligencji i chmury. Jej zainteresowania badawcze obejmują interpretację modeli, analizę przyczynową, sztuczną inteligencję w pętli oraz interaktywną wizualizację danych.

Przewiduj miejsca powrotów i powrotów piłki nożnej z dokładną dystrybucją za pomocą GluonTS PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Kyeong Hoon (Jonathan) Jung jest starszym inżynierem oprogramowania w National Football League. Od siedmiu lat pracuje w zespole Next Gen Stats, pomagając budować platformę od strumieniowego przesyłania nieprzetworzonych danych, przez budowanie mikrousług do przetwarzania danych, po tworzenie interfejsów API, które ujawniają przetworzone dane. Współpracował z Amazon Machine Learning Solutions Lab, dostarczając im czyste dane do pracy, a także dostarczając wiedzy o samych danych. Poza pracą lubi jeździć na rowerze po Los Angeles i wędrować po Sierras.

Przewiduj miejsca powrotów i powrotów piłki nożnej z dokładną dystrybucją za pomocą GluonTS PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Michał Chi jest starszym dyrektorem ds. technologii nadzorującym statystyki nowej generacji i inżynierię danych w National Football League. Ukończył matematykę i informatykę na Uniwersytecie Illinois w Urbana Champaign. Michael po raz pierwszy dołączył do NFL w 2007 roku i skupił się głównie na technologii i platformach do statystyk piłkarskich. W wolnym czasie lubi spędzać czas z rodziną na świeżym powietrzu.

Zespół Mike'a jest starszym menedżerem ds. badań i analiz statystyk nowej generacji w National Football League. Odkąd dołączył do zespołu w 2018 roku, jest odpowiedzialny za tworzenie pomysłów, rozwój i przekazywanie kluczowych statystyk i spostrzeżeń pochodzących z danych śledzenia graczy dla fanów, partnerów transmisji NFL i 32 klubów. Mike wnosi do zespołu bogatą wiedzę i doświadczenie dzięki tytułowi magistra analityki z University of Chicago, licencjat z zarządzania sportem na University of Florida oraz doświadczeniu zarówno w wydziale skautingu Minnesota Vikings, jak i dziale rekrutacji z Florida Gator Football.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Znak czasu: 2 lutego 2023 r.

Znak czasu: Kwiecień 5, 2022

Opublikowane ponownie przez Plato

Przygotuj dane na dużą skalę w Amazon SageMaker Studio za pomocą bezserwerowych interaktywnych sesji AWS Glue

Rurociąg powiększania obrazu dla Amazon Lookout for Vision

Pozwól osobom niedowidzącym słyszeć dokumenty za pomocą Amazon Text i Amazon Polly

Zintegruj ServiceNow z chatbotem Amazon Lex w celu przetwarzania biletów

Technologia AWS Cloud do wykrywania anomalii serca w czasie zbliżonym do rzeczywistego przy użyciu danych z urządzeń do noszenia

Twórz syntetyczne dane dla potoków wizyjnych w AWS

Dostosuj kontener algorytmu Amazon SageMaker XGBoost

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto