Dzisiaj NFL kontynuuje swoją podróż, aby zwiększyć liczbę statystyk dostarczanych przez Platforma statystyk nowej generacji wszystkim 32 drużynom i kibicom. Dzięki zaawansowanej analityce wywodzącej się z uczenia maszynowego (ML) NFL tworzy nowe sposoby ilościowego określania piłki nożnej i zapewnia fanom narzędzia potrzebne do zwiększenia ich wiedzy na temat piłki nożnej. gry w grze piłki nożnej. W sezonie 2022 celem NFL było wykorzystanie danych śledzenia graczy i nowych zaawansowanych technik analitycznych aby lepiej zrozumieć zespoły specjalne.
Celem projektu było przewidzenie, ile jardów zyska powracający podczas gry puntem lub kickoffem. Jednym z wyzwań podczas budowania modeli predykcyjnych dla zwrotów z puntów i kickoffów jest dostępność bardzo rzadkich zdarzeń — takich jak przyłożenia — które mają istotne znaczenie w dynamice gry. Dystrybucja danych z grubymi ogonami jest powszechna w rzeczywistych aplikacjach, w których rzadkie zdarzenia mają znaczący wpływ na ogólną wydajność modeli. Zastosowanie solidnej metody do dokładnego modelowania rozkładu w ekstremalnych zdarzeniach ma kluczowe znaczenie dla lepszej ogólnej wydajności.
W tym poście pokazujemy, jak wykorzystać dystrybucję Spliced Binned-Pareto zaimplementowaną w GluonTS do solidnego modelowania takich rozkładów z grubymi ogonami.
Najpierw opisujemy używany zestaw danych. Następnie przedstawiamy wstępne przetwarzanie danych i inne metody transformacji zastosowane do zbioru danych. Następnie wyjaśniamy szczegóły metodologii ML i procedury szkolenia modeli. Na koniec przedstawiamy wyniki działania modelu.
Dataset
W tym poście użyliśmy dwóch zestawów danych do zbudowania oddzielnych modeli dla zwrotów z punt i kickoff. Dane śledzenia gracza zawierają pozycję gracza, kierunek, przyspieszenie i inne (we współrzędnych x, y). Istnieje około 3,000 i 4,000 zagrań z czterech sezonów NFL (2018–2021) odpowiednio dla gier punt i kickoff. Ponadto w zbiorach danych jest bardzo niewiele przyłożeń związanych z puntem i kickoffem — odpowiednio tylko 0.23% i 0.8%. Dystrybucja danych dla puntu i kickoffu jest inna. Na przykład rzeczywisty rozkład odległości dla kickoffów i puntów jest podobny, ale przesunięty, jak pokazano na poniższym rysunku.
Wstępne przetwarzanie danych i inżynieria funkcji
Najpierw dane śledzenia zostały przefiltrowane pod kątem danych związanych z puntami i zwrotami z kickoffów. Dane gracza zostały wykorzystane do uzyskania funkcji do opracowania modelu:
- X – Pozycja zawodnika wzdłuż długiej osi boiska
- Y – Pozycja zawodnika wzdłuż krótszej osi boiska
- S – Prędkość w jardach/sekundę; zastąpione przez Dis * 10, aby było dokładniejsze (Dis to odległość w ciągu ostatnich 0.1 sekundy)
- Państwo – Kąt ruchu gracza (w stopniach)
Z poprzednich danych każda gra została przekształcona w 10X11X14 danych z 10 ofensywnymi graczami (z wyłączeniem posiadającego piłkę), 11 obrońcami i 14 cechami pochodnymi:
- sX – x prędkość gracza
- sY – y prędkość gracza
- s – Szybkość gracza
- aX – x przyspieszenie gracza
- aY – przyspieszenie y gracza
- reX – x odległość zawodnika względem niosącego piłkę
- polegać – y odległość zawodnika od niosącego piłkę
- relSx – x prędkość gracza względem niosącego piłkę
- RelSy – y prędkość zawodnika względem niosącego piłkę
- rozdz.rel – Euklidesowa odległość zawodnika od niosącego piłkę
- przeciwX – x odległość zawodnika ataku w stosunku do zawodnika obrony
- opY – y odległość zawodnika atakującego względem zawodnika obrony
- przeciwSx –x prędkość gracza atakującego w stosunku do gracza broniącego
- oppSy – y prędkość zawodnika atakującego w stosunku do zawodnika obrony
Aby rozszerzyć dane i uwzględnić prawą i lewą pozycję, wartości pozycji X i Y zostały również odzwierciedlone w celu uwzględnienia pozycji prawego i lewego pola. Wstępne przetwarzanie danych i inżynieria funkcji zostały zaadaptowane ze zwycięzcy konkursu Miska Big Data NFL konkurs na Kaggle.
Metodologia ML i szkolenie z modeli
Ponieważ interesują nas wszystkie możliwe wyniki gry, w tym prawdopodobieństwo przyłożenia, nie możemy po prostu przewidzieć średniej liczby zdobytych jardów jako problemu regresji. Musimy przewidzieć pełny rozkład prawdopodobieństwa wszystkich możliwych przyrostów podwórka, więc sformułowaliśmy problem jako prognozę probabilistyczną.
Jednym ze sposobów wdrożenia prognoz probabilistycznych jest przypisanie zdobytych jardów do kilku przedziałów (takich jak mniej niż 0, od 0 do 1, od 1 do 2, …, od 14 do 15, więcej niż 15) i przewidywanie przedziału jako klasyfikacji problem. Wadą tego podejścia jest to, że chcemy, aby małe pojemniki miały obraz rozkładu w wysokiej rozdzielczości, ale małe pojemniki oznaczają mniej punktów danych na pojemnik, a nasz rozkład, zwłaszcza ogony, może być słabo oszacowany i nieregularny.
Innym sposobem implementacji prognoz probabilistycznych jest modelowanie danych wyjściowych jako ciągłego rozkładu prawdopodobieństwa z ograniczoną liczbą parametrów (na przykład rozkład Gaussa lub Gamma) i przewidywanie parametrów. Takie podejście daje bardzo wyraźny i regularny obraz rozkładu, ale jest zbyt sztywne, aby pasowało do rzeczywistego rozkładu uzyskanych jardów, który jest multimodalny i mocno ogoniasty.
Aby uzyskać najlepsze z obu metod, używamy Spliced Dystrybucja Binned-Pareto (SBP), który ma pojemniki dla centrum dystrybucji, gdzie dostępnych jest wiele danych, oraz Uogólniony rozkład Pareto (GPD) na obu końcach, gdzie mogą się zdarzyć rzadkie, ale ważne zdarzenia, takie jak przyłożenie. GPD ma dwa parametry: jeden dla skali i jeden dla ciężkości ogona, jak widać na poniższym wykresie (źródło: Wikipedia).
Łącząc GPD z dystrybucją binowaną (patrz poniższy lewy wykres) po obu stronach, uzyskujemy następujący SBP po prawej stronie. Dolne i górne progi, w których odbywa się splicing, to hiperparametry.
Jako linię bazową wykorzystaliśmy model, który wygrał nasz Miska Big Data NFL konkurs na Kaggle. Model ten wykorzystuje warstwy CNN do wyodrębniania cech z przygotowanych danych i przewiduje wynik jako problem klasyfikacyjny „1 jard na pojemnik”. W naszym modelu zachowaliśmy warstwy ekstrakcji cech z linii bazowej i zmodyfikowaliśmy tylko ostatnią warstwę, aby wyprowadzić parametry SBP zamiast prawdopodobieństw dla każdego przedziału, jak pokazano na poniższym rysunku (obraz edytowany z postu 1. miejsce rozwiązanie Zoo).
Wykorzystaliśmy dystrybucję SBP dostarczoną przez GluonTS. GluonTS to pakiet Pythona do probabilistycznego modelowania szeregów czasowych, ale dystrybucja SBP nie jest specyficzna dla szeregów czasowych i udało nam się ponownie wykorzystać go do regresji. Aby uzyskać więcej informacji na temat korzystania z GluonTS SBP, zobacz poniższą prezentację notatnik.
Modele zostały przeszkolone i poddane walidacji krzyżowej w sezonach 2018, 2019 i 2020 oraz przetestowane w sezonie 2021. Aby uniknąć przecieków podczas weryfikacji krzyżowej, zgrupowaliśmy wszystkie gry z tej samej gry w tej samej części.
Do oceny zachowaliśmy metrykę używaną w konkursie Kaggle, tj ciągły rankingowy wynik prawdopodobieństwa (CRPS), co można postrzegać jako alternatywę dla logarytmu wiarygodności, który jest bardziej odporny na wartości odstające. Korzystaliśmy również z Współczynnik korelacji Pearsona oraz RMSE jako ogólne i interpretowalne wskaźniki dokładności. Ponadto przyjrzeliśmy się prawdopodobieństwu przyziemienia i wykresom prawdopodobieństwa, aby ocenić kalibrację.
Model został przeszkolony w zakresie utraty CRPS za pomocą Stochastyczne uśrednianie wagi i wczesnego zatrzymania.
Aby uporać się z nieregularnością podzielonej części rozkładów wyjściowych, zastosowaliśmy dwie techniki:
- Kara za gładkość proporcjonalna do kwadratu różnicy między dwoma kolejnymi przedziałami
- Tworzenie modeli trenowanych podczas walidacji krzyżowej
Modelowe wyniki wydajności
Dla każdego zestawu danych przeprowadziliśmy wyszukiwanie siatki według następujących opcji:
- Modele probabilistyczne
- Linią bazową było jedno prawdopodobieństwo na jard
- SBP było jednym prawdopodobieństwem na jard w środku, uogólnionym SBP w ogonach
- Wygładzanie dystrybucji
- Brak wygładzania (kara za gładkość = 0)
- Kara za gładkość = 5
- Kara za gładkość = 10
- Procedura uczenia i wnioskowania
- 10-krotna walidacja krzyżowa i wnioskowanie zespołowe (k10)
- Szkolenie z danych pociągu i walidacji dla 10 lub 20 epok
Następnie przyjrzeliśmy się wskaźnikom dla pięciu najlepszych modeli posortowanych według CRPS (im niższy, tym lepszy).
W przypadku danych kickoff model SBP jest nieco lepszy pod względem CRPS, ale co ważniejsze, lepiej szacuje prawdopodobieństwo przyziemienia (prawdziwe prawdopodobieństwo wynosi 0.80% w zbiorze testowym). Widzimy, że najlepsze modele używają 10 fałd (k10) i nie mają kary za gładkość, jak pokazano w poniższej tabeli.
Trening | Model | Gładkość | CRPS | RMSE | CORR% | P (przyziemienie)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Baseline | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Baseline | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Baseline | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Poniższy wykres obserwowanych częstości i przewidywanych prawdopodobieństw wskazuje na dobrą kalibrację naszego najlepszego modelu, z RMSE równym 0.27 między dwoma rozkładami. Zwróć uwagę na przypadki dużego metrażu (na przykład 100), które występują w ogonie prawdziwego (niebieskiego) rozkładu empirycznego, którego prawdopodobieństwa są lepiej uchwycone przez SBP niż metodę bazową.
W przypadku danych puntowych linia bazowa przewyższa SBP, być może dlatego, że ogony ekstremalnych metrów mają mniej realizacji. Dlatego lepszym kompromisem jest uchwycenie modalności między szczytami 0–10 jardów; iw przeciwieństwie do danych dotyczących kickoffu, najlepszy model wykorzystuje karę za gładkość. Poniższa tabela podsumowuje nasze ustalenia.
Trening | Model | Gładkość | CRPS | RMSE | CORR% | P (przyziemienie)% |
k10 | Baseline | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Baseline | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Baseline | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Poniższy wykres obserwowanych częstotliwości (na niebiesko) i przewidywanych prawdopodobieństw dla dwóch najlepszych modeli punt wskazuje, że model niewygładzony (na pomarańczowo) jest nieco lepiej skalibrowany niż model wygładzony (na zielono) i ogólnie może być lepszym wyborem.
Wnioski
W tym poście pokazaliśmy, jak budować modele predykcyjne z dystrybucją danych z grubym ogonem. Użyliśmy dystrybucji Spliced Binned-Pareto, zaimplementowanej w GluonTS, która może solidnie modelować takie rozkłady z grubymi ogonami. Wykorzystaliśmy tę technikę do zbudowania modeli zwrotów z puntów i kickoffów. Możemy zastosować to rozwiązanie do podobnych przypadków użycia, w których występuje bardzo mało zdarzeń w danych, ale zdarzenia te mają znaczący wpływ na ogólną wydajność modeli.
Jeśli potrzebujesz pomocy w przyspieszeniu stosowania ML w swoich produktach i usługach, skontaktuj się z Laboratorium rozwiązań Amazon ML program.
O autorach
Tesfagabir Meharizghi jest analitykiem danych w Laboratorium rozwiązań Amazon ML gdzie pomaga klientom AWS z różnych branż, takich jak opieka zdrowotna i nauki przyrodnicze, produkcja, motoryzacja, sport i media, przyspieszyć ich wykorzystanie uczenia maszynowego i usług chmurowych AWS w rozwiązywaniu ich wyzwań biznesowych.
Marca van Oudheusdena jest starszym analitykiem danych w zespole Amazon ML Solutions Lab w Amazon Web Services. Współpracuje z klientami AWS przy rozwiązywaniu problemów biznesowych za pomocą sztucznej inteligencji i uczenia maszynowego. Poza pracą można go spotkać na plaży, bawiącego się z dziećmi, surfującego czy kitesurfingowego.
Panpan Xu jest starszym naukowcem i menedżerem w laboratorium Amazon ML Solutions Lab w AWS. Pracuje nad badaniami i rozwojem algorytmów uczenia maszynowego dla aplikacji klientów o dużym wpływie w różnych branżach przemysłowych, aby przyspieszyć ich adopcję w zakresie sztucznej inteligencji i chmury. Jej zainteresowania badawcze obejmują interpretację modeli, analizę przyczynową, sztuczną inteligencję w pętli oraz interaktywną wizualizację danych.
Kyeong Hoon (Jonathan) Jung jest starszym inżynierem oprogramowania w National Football League. Od siedmiu lat pracuje w zespole Next Gen Stats, pomagając budować platformę od strumieniowego przesyłania nieprzetworzonych danych, przez budowanie mikrousług do przetwarzania danych, po tworzenie interfejsów API, które ujawniają przetworzone dane. Współpracował z Amazon Machine Learning Solutions Lab, dostarczając im czyste dane do pracy, a także dostarczając wiedzy o samych danych. Poza pracą lubi jeździć na rowerze po Los Angeles i wędrować po Sierras.
Michał Chi jest starszym dyrektorem ds. technologii nadzorującym statystyki nowej generacji i inżynierię danych w National Football League. Ukończył matematykę i informatykę na Uniwersytecie Illinois w Urbana Champaign. Michael po raz pierwszy dołączył do NFL w 2007 roku i skupił się głównie na technologii i platformach do statystyk piłkarskich. W wolnym czasie lubi spędzać czas z rodziną na świeżym powietrzu.
Zespół Mike'a jest starszym menedżerem ds. badań i analiz statystyk nowej generacji w National Football League. Odkąd dołączył do zespołu w 2018 roku, jest odpowiedzialny za tworzenie pomysłów, rozwój i przekazywanie kluczowych statystyk i spostrzeżeń pochodzących z danych śledzenia graczy dla fanów, partnerów transmisji NFL i 32 klubów. Mike wnosi do zespołu bogatą wiedzę i doświadczenie dzięki tytułowi magistra analityki z University of Chicago, licencjat z zarządzania sportem na University of Florida oraz doświadczeniu zarówno w wydziale skautingu Minnesota Vikings, jak i dziale rekrutacji z Florida Gator Football.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Zdolny
- O nas
- przyśpieszyć
- przyspieszenie
- Konto
- precyzja
- dokładny
- dokładnie
- w poprzek
- dodatek
- Przyjęcie
- zaawansowany
- AI
- Algorytmy
- Wszystkie kategorie
- alternatywny
- Amazonka
- Uczenie maszynowe Amazon
- Laboratorium rozwiązań Amazon ML
- Amazon Web Services
- analiza
- analityka
- i
- Angeles
- aplikacje
- stosowany
- Aplikuj
- podejście
- architektura
- na około
- sztuczny
- sztuczna inteligencja
- Sztuczna inteligencja i uczenie maszynowe
- motoryzacyjny
- dostępność
- dostępny
- średni
- AWS
- Oś
- piłka
- Baseline
- Plaża
- bo
- BEST
- Ulepsz Swój
- pomiędzy
- Duży
- Big Data
- Niebieski
- Obie strony
- Przynosi
- nadawanie
- budować
- Budowanie
- biznes
- zdobyć
- Etui
- Centrum
- wyzwania
- Chicago
- Dzieci
- wybór
- klasyfikacja
- Chmura
- adopcja chmury
- usługi w chmurze
- kluby
- CNN
- współpracował
- wspólny
- Komunikacja
- konkurencja
- komputer
- Computer Science
- kolejny
- skontaktuj się
- zawiera
- kontynuując
- ciągły
- przeciwnie
- Korelacja
- Tworzenie
- istotny
- klient
- Klientów
- dane
- punkty danych
- naukowiec danych
- Wizualizacja danych
- zbiory danych
- sprawa
- obrońcy
- Obrona
- Stopień
- wykazać
- Departament
- Pochodny
- opisać
- detale
- oprogramowania
- różnica
- różne
- kierunek
- Dyrektor
- dystans
- 分配
- Dystrybucje
- domena
- minusem
- podczas
- dynamika
- każdy
- Wcześnie
- kończy się
- inżynier
- Inżynieria
- epoki
- szczególnie
- szacunkowa
- Szacunki
- oceniać
- ewaluację
- wydarzenia
- przykład
- z pominięciem
- doświadczenie
- Wyjaśniać
- wyciąg
- skrajny
- członków Twojej rodziny
- Fani
- Tłuszcz
- Cecha
- Korzyści
- kilka
- pole
- Postać
- W końcu
- Znajdź
- i terminów, a
- dopasować
- florida
- koncentruje
- następujący
- piłka nożna
- od
- pełny
- Ponadto
- Wzrost
- Zyski
- gra
- Gen
- Ogólne
- otrzymać
- daje
- cel
- dobry
- GPD
- wykres
- Zielony
- Krata
- zdarzyć
- opieki zdrowotnej
- pomoc
- pomoc
- pomaga
- Wysoki
- W jaki sposób
- How To
- HTTPS
- Illinois
- obraz
- Rezultat
- wdrożenia
- realizowane
- znaczenie
- ważny
- in
- obejmuje
- Włącznie z
- Zwiększać
- wskazuje
- przemysłowy
- przemysłowa
- Informacja
- spostrzeżenia
- zamiast
- Inteligencja
- interaktywne
- odsetki
- zainteresowany
- IT
- samo
- Dołączył
- łączący
- podróż
- Klawisz
- wiedza
- laboratorium
- Nazwisko
- warstwa
- nioski
- Liga
- nauka
- Dźwignia
- życie
- Life Sciences
- Ograniczony
- długo
- wyglądał
- im
- Los Angeles
- od
- Partia
- maszyna
- uczenie maszynowe
- robić
- i konserwacjami
- kierownik
- produkcja
- wiele
- mistrzowski
- matematyka
- Media
- metoda
- Metodologia
- metody
- metryczny
- Metryka
- Michał
- mikroserwisy
- ML
- model
- modele
- zmodyfikowano
- jeszcze
- ruch
- narodowy
- Potrzebować
- Nowości
- Następny
- następny gen
- NFL
- numer
- uzyskać
- obraźliwy
- ONE
- Opcje
- Orange
- Inne
- Wynik
- na zewnątrz
- Przewyższa
- zewnętrzne
- ogólny
- pakiet
- parametry
- część
- wzmacniacz
- Przeszłość
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- może
- obraz
- Miejsce
- Platforma
- Platformy
- plato
- Analiza danych Platona
- PlatoDane
- Grać
- gracz
- gracze
- gra
- Proszę
- zwrotnica
- position
- Pozycje
- możliwy
- Post
- przewidzieć
- Przewiduje
- przepowiednia
- Przewidywania
- Prognozy
- przygotowany
- teraźniejszość
- głównie
- Problem
- problemy
- procedury
- wygląda tak
- Obrobiony
- Produkty
- Program
- projekt
- zapewniać
- pod warunkiem,
- że
- Python
- w rankingu
- RZADKO SPOTYKANY
- Surowy
- Prawdziwy świat
- Rekrutacja
- regularny
- związane z
- otrzymuje
- Badania naukowe
- badania i rozwój
- odpowiedzialny
- Efekt
- powrót
- powraca
- sztywny
- krzepki
- taki sam
- Skala
- nauka
- NAUKI
- Naukowiec
- Szukaj
- Pora roku
- pory roku
- sekund
- senior
- oddzielny
- Serie
- Usługi
- zestaw
- siedem
- kilka
- Short
- pokazane
- Strony
- znaczący
- podobny
- po prostu
- ponieważ
- mały
- So
- Tworzenie
- Software Engineer
- rozwiązanie
- Rozwiązania
- ROZWIĄZANIA
- Źródło
- specjalny
- specyficzny
- prędkość
- Spędzanie
- Sport
- SPORTOWE
- Do kwadratu
- statystyka
- statystyki
- zatrzymanie
- Streaming
- taki
- stół
- zespół
- Zespoły
- Techniki
- Technologia
- REGULAMIN
- test
- Połączenia
- ich
- w związku z tym
- czas
- Szereg czasowy
- do
- także
- narzędzia
- Top
- Śledzenie
- Pociąg
- przeszkolony
- Trening
- Transformacja
- przekształcony
- prawdziwy
- zrozumieć
- uniwersytet
- University of Chicago
- posługiwać się
- uprawomocnienie
- Wartości
- różnorodność
- różnorodny
- pionowe
- Wikingowie
- wyobrażanie sobie
- sposoby
- Bogactwo
- sieć
- usługi internetowe
- waga
- który
- Wikipedia
- w ciągu
- Wygrał
- Praca
- pracujący
- działa
- by
- X
- lat
- You
- Twój
- zefirnet