Hoje, a NFL continua sua jornada para aumentar o número de estatísticas fornecidas pelo Plataforma de estatísticas de próxima geração para todos os 32 times e torcedores. Com análises avançadas derivadas do aprendizado de máquina (ML), a NFL está criando novas maneiras de quantificar o futebol e fornecer aos torcedores as ferramentas necessárias para aumentar seu conhecimento sobre o futebol. jogos dentro do jogo de futebol. Para a temporada de 2022, a NFL pretendia aproveitar os dados de rastreamento de jogadores e novas técnicas de análise avançada para entender melhor as equipes especiais.
O objetivo do projeto era prever quantas jardas um retornador ganharia em um punt ou jogo inicial. Um dos desafios na construção de modelos preditivos para retornos de punt e kickoff é a disponibilidade de eventos muito raros — como touchdowns — que têm importância significativa na dinâmica de um jogo. Uma distribuição de dados com caudas gordas é comum em aplicações do mundo real, onde eventos raros têm impacto significativo no desempenho geral dos modelos. Usar um método robusto para modelar com precisão a distribuição em eventos extremos é crucial para um melhor desempenho geral.
Neste post, demonstramos como usar a distribuição Spliced Binned-Pareto implementada no GluonTS para modelar de forma robusta essas distribuições de cauda gorda.
Primeiro descrevemos o conjunto de dados usado. Em seguida, apresentamos o pré-processamento de dados e outros métodos de transformação aplicados ao conjunto de dados. Em seguida, explicamos os detalhes da metodologia de ML e os procedimentos de treinamento do modelo. Por fim, apresentamos os resultados de desempenho do modelo.
Conjunto de dados
Nesta postagem, usamos dois conjuntos de dados para criar modelos separados para retornos de punt e kickoff. Os dados de rastreamento do jogador contêm a posição, direção, aceleração e mais do jogador (em coordenadas x,y). Existem cerca de 3,000 e 4,000 jogadas em quatro temporadas da NFL (2018–2021) para jogadas de punt e kickoff, respectivamente. Além disso, há muito poucos touchdowns relacionados a punt e kickoff nos conjuntos de dados - apenas 0.23% e 0.8%, respectivamente. A distribuição de dados para punt e kickoff são diferentes. Por exemplo, a verdadeira distribuição de jardas para kickoff e punts é semelhante, mas alterada, conforme mostrado na figura a seguir.
Pré-processamento de dados e engenharia de recursos
Primeiro, os dados de rastreamento foram filtrados apenas para os dados relacionados a punts e retornos de kickoff. Os dados do jogador foram usados para derivar recursos para o desenvolvimento do modelo:
- X – Posição do jogador ao longo do eixo longo do campo
- Y – Posição do jogador ao longo do eixo curto do campo
- S – Velocidade em jardas/segundo; substituído por Dis*10 para torná-lo mais preciso (Dis é a distância nos últimos 0.1 segundos)
- Você – Ângulo de movimento do jogador (graus)
A partir dos dados anteriores, cada jogada foi transformada em 10X11X14 de dados com 10 jogadores ofensivos (excluindo o portador da bola), 11 defensores e 14 características derivadas:
- sX – x velocidade de um jogador
- sY – y velocidade de um jogador
- s – Velocidade de um jogador
- aX – x aceleração de um jogador
- aY – y aceleração de um jogador
- relX – x distância do jogador em relação ao portador da bola
- confiar – y distância do jogador em relação ao portador da bola
- relSx – x velocidade do jogador em relação ao portador da bola
- relSy – y velocidade do jogador em relação ao portador da bola
- relDist – Distância euclidiana do jogador em relação ao portador da bola
- oppX – x distância do jogador de ataque em relação ao jogador de defesa
- oppY – y distância do jogador de ataque em relação ao jogador de defesa
- oppSx –x velocidade do jogador de ataque em relação ao jogador de defesa
- oppSy – y velocidade do jogador de ataque em relação ao jogador de defesa
Para aumentar os dados e contabilizar as posições direita e esquerda, os valores das posições X e Y também foram espelhados para contabilizar as posições de campo direita e esquerda. O pré-processamento de dados e a engenharia de recursos foram adaptados do vencedor do Big Data da NFL competição no Kaggle.
Metodologia de ML e treinamento de modelos
Como estamos interessados em todos os resultados possíveis da jogada, incluindo a probabilidade de um touchdown, não podemos simplesmente prever a média de jardas ganhas como um problema de regressão. Precisamos prever a distribuição de probabilidade total de todos os ganhos de jardas possíveis, então estruturamos o problema como uma previsão probabilística.
Uma maneira de implementar previsões probabilísticas é atribuir as jardas ganhas a vários compartimentos (como menos de 0, de 0–1, de 1–2, …, de 14–15, mais de 15) e prever o compartimento como uma classificação problema. A desvantagem dessa abordagem é que queremos que pequenas caixas tenham uma imagem de alta definição da distribuição, mas pequenas caixas significam menos pontos de dados por caixa e nossa distribuição, especialmente as caudas, pode ser mal estimada e irregular.
Outra maneira de implementar previsões probabilísticas é modelar a saída como uma distribuição de probabilidade contínua com um número limitado de parâmetros (por exemplo, uma distribuição gaussiana ou gama) e prever os parâmetros. Essa abordagem fornece uma definição muito alta e uma imagem regular da distribuição, mas é muito rígida para se ajustar à verdadeira distribuição de jardas ganhas, que é multimodal e pesada.
Para obter o melhor dos dois métodos, usamos Distribuição Binned-Pareto emendada (SBP), que possui bins para o centro da distribuição onde muitos dados estão disponíveis, e Distribuição generalizada de Pareto (GPD) em ambas as pontas, onde eventos raros, mas importantes, podem acontecer, como um touchdown. O GPD possui dois parâmetros: um para escala e outro para peso da cauda, como pode ser visto no gráfico a seguir (fonte: Wikipedia).
Unindo o GPD com a distribuição agrupada (veja o gráfico a seguir à esquerda) em ambos os lados, obtemos o seguinte SBP à direita. Os limites inferior e superior onde a emenda é feita são hiperparâmetros.
Como linha de base, utilizamos o modelo que conquistou nosso Big Data da NFL competição no Kaggle. Este modelo usa camadas CNN para extrair recursos dos dados preparados e prevê o resultado como um problema de classificação de “1 jarda por caixa”. Para o nosso modelo, mantivemos as camadas de extração de recursos da linha de base e apenas modificamos a última camada para gerar parâmetros SBP em vez de probabilidades para cada caixa, conforme mostrado na figura a seguir (imagem editada do post 1º lugar solução The Zoo).
Usamos a distribuição SBP fornecida por GlúonTS. O GluonTS é um pacote Python para modelagem probabilística de séries temporais, mas a distribuição SBP não é específica para séries temporais e pudemos redefini-la para regressão. Para obter mais informações sobre como usar o GluonTS SBP, consulte a seguinte demonstração caderno.
Os modelos foram treinados e validados de forma cruzada nas temporadas de 2018, 2019 e 2020 e testados na temporada de 2021. Para evitar vazamentos durante a validação cruzada, agrupamos todas as jogadas do mesmo jogo na mesma dobra.
Para avaliação, mantivemos a métrica utilizada na competição Kaggle, a pontuação de probabilidade classificada contínua (CRPS), que pode ser visto como uma alternativa ao log-likelihood mais robusto a outliers. Nós também usamos o Coeficiente de correlação de Pearson e os votos de REQM como métricas de precisão gerais e interpretáveis. Além disso, analisamos a probabilidade de um touchdown e os gráficos de probabilidade para avaliar a calibração.
O modelo foi treinado na perda CRPS usando Média de peso estocástico e parada precoce.
Para lidar com a irregularidade da parte agrupada das distribuições de saída, usamos duas técnicas:
- Uma penalidade de suavidade proporcional à diferença ao quadrado entre dois bins consecutivos
- Modelos de combinação treinados durante a validação cruzada
Resultados de desempenho do modelo
Para cada conjunto de dados, realizamos uma pesquisa em grade nas seguintes opções:
- Modelos probabilísticos
- A linha de base foi uma probabilidade por jarda
- SBP foi uma probabilidade por jarda no centro, SBP generalizado nas caudas
- Suavização de distribuição
- Sem suavização (penalidade de suavidade = 0)
- Penalidade de suavidade = 5
- Penalidade de suavidade = 10
- Procedimento de treinamento e inferência
- Validação cruzada de 10 dobras e inferência de conjunto (k10)
- Treinamento em dados de treinamento e validação para 10 épocas ou 20 épocas
Em seguida, analisamos as métricas dos cinco principais modelos classificados por CRPS (quanto menor, melhor).
Para dados de kickoff, o modelo SBP supera ligeiramente em termos de CRPS, mas, mais importante, estima melhor a probabilidade de touchdown (a probabilidade real é de 0.80% no conjunto de teste). Vemos que os melhores modelos usam ensemble de 10 dobras (k10) e nenhuma penalidade de suavidade, conforme mostrado na tabela a seguir.
Training | Modelo | Suavidade | CRPS | REQM | CORR% | P(toque)% |
k10 | PAS | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Linha de Base | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Linha de Base | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | PAS | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Linha de Base | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
O gráfico a seguir das frequências observadas e das probabilidades previstas indica uma boa calibração do nosso melhor modelo, com um RMSE de 0.27 entre as duas distribuições. Observe as ocorrências de jardas altas (por exemplo, 100) que ocorrem na cauda da distribuição empírica verdadeira (azul), cujas probabilidades são mais capturáveis pelo SBP do que pelo método de linha de base.
Para dados punt, a linha de base supera o SBP, talvez porque as caudas de jardas extremas tenham menos realizações. Portanto, é uma compensação melhor capturar a modalidade entre picos de 0 a 10 jardas; e ao contrário dos dados de kickoff, o melhor modelo usa uma penalidade de suavidade. A tabela a seguir resume nossas descobertas.
Training | Modelo | Suavidade | CRPS | REQM | CORR% | P(toque)% |
k10 | Linha de Base | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Linha de Base | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Linha de Base | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | PAS | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | PAS | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
O seguinte gráfico de frequências observadas (em azul) e probabilidades previstas para os dois melhores modelos punt indica que o modelo não suavizado (em laranja) é ligeiramente melhor calibrado do que o modelo suavizado (em verde) e pode ser uma escolha melhor em geral.
Conclusão
Neste post, mostramos como construir modelos preditivos com distribuição de dados de cauda gorda. Usamos a distribuição Spliced Binned-Pareto, implementada no GluonTS, que pode modelar de forma robusta essas distribuições de cauda gorda. Usamos essa técnica para construir modelos para retornos de punt e kickoff. Podemos aplicar essa solução a casos de uso semelhantes em que há poucos eventos nos dados, mas esses eventos têm um impacto significativo no desempenho geral dos modelos.
Se você quiser ajuda para acelerar o uso de ML em seus produtos e serviços, entre em contato com o Laboratório de soluções de ML da Amazon .
Sobre os autores
Tesfagabir Meharizghi é cientista de dados na Laboratório de soluções de ML da Amazon onde ele ajuda clientes da AWS em vários setores, como saúde e ciências biológicas, manufatura, automotivo e esportes e mídia, a acelerar o uso de aprendizado de máquina e serviços de nuvem da AWS para resolver seus desafios de negócios.
Marc van Oudheusden é cientista de dados sênior da equipe do Amazon ML Solutions Lab na Amazon Web Services. Ele trabalha com clientes da AWS para resolver problemas de negócios com inteligência artificial e aprendizado de máquina. Fora do trabalho você pode encontrá-lo na praia, brincando com seus filhos, surfando ou praticando kitesurf.
Pan Pan Xu é Cientista Aplicado Sênior e Gerente do Amazon ML Solutions Lab na AWS. Ela está trabalhando em pesquisa e desenvolvimento de algoritmos de aprendizado de máquina para aplicativos de clientes de alto impacto em uma variedade de verticais industriais para acelerar sua adoção de IA e nuvem. Seu interesse de pesquisa inclui interpretabilidade de modelos, análise causal, IA human-in-the-loop e visualização interativa de dados.
Kyeong Hoon (Jonathan) Jung é um engenheiro de software sênior da National Football League. Ele está com a equipe Next Gen Stats nos últimos sete anos, ajudando a construir a plataforma de streaming de dados brutos, construindo microsserviços para processar os dados, para construir APIs que expõem os dados processados. Ele colaborou com o Amazon Machine Learning Solutions Lab fornecendo dados limpos para eles trabalharem, bem como fornecendo conhecimento de domínio sobre os próprios dados. Fora do trabalho, ele gosta de andar de bicicleta em Los Angeles e fazer caminhadas nas serras.
Michael Chi é um Diretor Sênior de Tecnologia que supervisiona Estatísticas de Próxima Geração e Engenharia de Dados na National Football League. Ele é formado em Matemática e Ciência da Computação pela Universidade de Illinois em Urbana Champaign. Michael ingressou na NFL pela primeira vez em 2007 e se concentrou principalmente em tecnologia e plataformas para estatísticas de futebol. Em seu tempo livre, ele gosta de passar o tempo com sua família ao ar livre.
Mike Banda é gerente sênior de pesquisa e análise para estatísticas de próxima geração na National Football League. Desde que ingressou na equipe em 2018, ele é responsável pela concepção, desenvolvimento e comunicação das principais estatísticas e percepções derivadas de dados de rastreamento de jogadores para torcedores, parceiros de transmissão da NFL e para os 32 clubes. Mike traz uma riqueza de conhecimento e experiência para a equipe com um mestrado em análise da Universidade de Chicago, um diploma de bacharel em gestão esportiva da Universidade da Flórida e experiência tanto no departamento de prospecção do Minnesota Vikings quanto no departamento de recrutamento do Florida Gator Football.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Capaz
- Sobre
- acelerar
- acelerando
- Conta
- precisão
- preciso
- exatamente
- em
- Adição
- Adoção
- avançado
- AI
- algoritmos
- Todos os Produtos
- alternativa
- Amazon
- Aprendizado de máquina da Amazon
- Laboratório de soluções de ML da Amazon
- Amazon Web Services
- análise
- analítica
- e
- Angeles
- aplicações
- aplicado
- Aplicar
- abordagem
- arquitetura
- por aí
- artificial
- inteligência artificial
- Inteligência Artificial e Aprendizado de Máquinas
- automotivo
- disponibilidade
- disponível
- média
- AWS
- eixo
- bola
- Linha de Base
- Beach
- Porque
- MELHOR
- Melhor
- entre
- Grande
- Big Data
- Azul
- Ambos os lados
- Traz
- transmissão
- construir
- Prédio
- negócio
- capturar
- casos
- Centralização de
- desafios
- Chicago
- Crianças
- escolha
- classificação
- Na nuvem
- adoção de nuvem
- serviços na nuvem
- clubes
- CNN
- colaborou
- comum
- Comunicação
- competição
- computador
- Ciência da Computação
- consecutivo
- Contacto
- contém
- continuar
- contínuo
- contrário
- Correlação
- Criar
- crucial
- cliente
- Clientes
- dados,
- Os pontos de dados
- cientista de dados
- Visualização de dados
- conjuntos de dados
- acordo
- Defensores
- Defesa
- Grau
- demonstrar
- Departamento
- Derivado
- descreve
- detalhes
- Desenvolvimento
- diferença
- diferente
- direção
- Diretor
- distância
- distribuição
- distribuições
- domínio
- desvantagem
- durante
- dinâmica
- cada
- Cedo
- termina
- engenheiro
- Engenharia
- épocas
- especialmente
- estimado
- estimativas
- avaliar
- avaliação
- eventos
- exemplo
- excluindo
- vasta experiência
- Explicação
- extrato
- extremo
- família
- fãs
- gordura
- Característica
- Funcionalidades
- poucos
- campo
- Figura
- Finalmente
- Encontre
- Primeiro nome
- caber
- florida
- focado
- seguinte
- Futebol
- da
- cheio
- Além disso
- Ganho
- Ganhos
- jogo
- Gen
- Geral
- ter
- dá
- meta
- Bom estado, com sinais de uso
- GPD
- gráfico
- Verde
- Grade
- acontecer
- saúde
- ajudar
- ajuda
- ajuda
- Alta
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- Illinois
- imagem
- Impacto
- executar
- implementado
- importância
- importante
- in
- inclui
- Incluindo
- Crescimento
- indicam
- industrial
- indústrias
- INFORMAÇÕES
- insights
- em vez disso
- Inteligência
- interativo
- interesse
- interessado
- IT
- se
- ingressou
- juntando
- viagem
- Chave
- Conhecimento
- laboratório
- Sobrenome
- camada
- camadas
- Liga
- aprendizagem
- Alavancagem
- vida
- Ciências da Vida
- Limitado
- longo
- olhou
- os
- Los Angeles
- fora
- lote
- máquina
- aprendizado de máquina
- fazer
- de grupos
- Gerente
- fabrica
- muitos
- mestre
- matemática
- Mídia
- método
- Metodologia
- métodos
- métrico
- Métrica
- Michael
- microsserviços
- ML
- modelo
- modelos
- modificada
- mais
- movimento
- Nacional
- você merece...
- Novo
- Próximo
- next-gen
- NFL
- número
- obter
- ofensivo
- ONE
- Opções
- Laranja
- Outros
- Resultado
- ao ar livre
- Supera o desempenho
- lado de fora
- global
- pacote
- parâmetros
- parte
- Parceiros
- passado
- atuação
- possivelmente
- fotografia
- Lugar
- plataforma
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- Jogar
- jogador
- players
- jogar
- por favor
- pontos
- posição
- abertas
- possível
- Publique
- predizer
- previsto
- predição
- Previsões
- Previsões
- preparado
- presente
- principalmente
- Problema
- problemas
- procedimentos
- processo
- Processado
- Produtos
- Agenda
- projeto
- fornecer
- fornecido
- fornecendo
- Python
- classificado
- RARO
- Cru
- mundo real
- recrutamento
- regular
- relacionado
- substituído
- pesquisa
- pesquisa e desenvolvimento
- responsável
- Resultados
- retorno
- Retorna
- rígido
- uma conta de despesas robusta
- mesmo
- Escala
- Ciência
- CIÊNCIAS
- Cientista
- Pesquisar
- Épocas
- estações
- segundo
- senior
- separado
- Série
- Serviços
- conjunto
- Sete
- vários
- Baixo
- mostrando
- Sides
- periodo
- semelhante
- simplesmente
- desde
- pequeno
- So
- Software
- Engenheiro de Software
- solução
- Soluções
- RESOLVER
- fonte
- especial
- específico
- velocidade
- Passar
- Desporto
- Esportes
- Quadrada
- estatística
- stats
- paragem
- de streaming
- tal
- mesa
- Profissionais
- equipes
- técnicas
- Tecnologia
- condições
- teste
- A
- deles
- assim sendo
- tempo
- Séries temporais
- para
- também
- ferramentas
- topo
- Rastreamento
- Trem
- treinado
- Training
- Transformação
- transformado
- verdadeiro
- compreender
- universidade
- Universidade de Chicago
- usar
- validação
- Valores
- variedade
- vário
- Verticais
- Vikings
- visualização
- maneiras
- Riqueza
- web
- serviços web
- peso
- qual
- Wikipedia
- dentro
- Ganhou
- Atividades:
- trabalhar
- trabalho
- seria
- X
- anos
- Vocês
- investimentos
- zefirnet