Identificando esquemas de cobertura de defesa nas estatísticas da próxima geração da NFL

Identificando esquemas de cobertura de defesa nas estatísticas da próxima geração da NFL

Este post foi escrito em parceria com Jonathan Jung, Mike Band, Michael Chi e Thompson Bliss na National Football League.

A esquema de cobertura refere-se às regras e responsabilidades de cada defensor de futebol encarregado de parar um passe ofensivo. Está no centro da compreensão e análise de qualquer estratégia defensiva de futebol. A classificação do esquema de cobertura para cada jogo de passe fornecerá informações sobre o jogo de futebol para times, emissoras e torcedores. Por exemplo, pode revelar as preferências dos jogadores, permitir uma compreensão mais profunda de como os respectivos treinadores e equipes ajustam continuamente suas estratégias com base nos pontos fortes de seus oponentes e permitir o desenvolvimento de novas análises defensivas, como exclusividade de coberturas (Seth et ai.). No entanto, a identificação manual dessas coberturas por jogo é trabalhosa e difícil porque exige que especialistas em futebol inspecionem cuidadosamente as imagens do jogo. Existe a necessidade de um modelo automatizado de classificação de cobertura que possa ser dimensionado de forma eficaz e eficiente para reduzir custos e tempo de resposta.

A NFL Estatísticas da próxima geração captura localização em tempo real, velocidade e muito mais para cada jogador e jogo de jogos de futebol da NFL, e deriva várias estatísticas avançadas que cobrem diferentes aspectos do jogo. Por meio de uma colaboração entre a equipe do Next Gen Stats e o Laboratório de soluções de ML da Amazon, desenvolvemos a estatística de classificação de cobertura baseada em aprendizado de máquina (ML) que identifica com precisão o esquema de cobertura de defesa com base nos dados de rastreamento do jogador. O modelo de classificação de cobertura é treinado usando Amazon Sage Maker, e a estatística foi lançado para a temporada 2022 da NFL.

Nesta postagem, nos aprofundamos nos detalhes técnicos desse modelo de ML. Descrevemos como projetamos um modelo de ML preciso e explicável para fazer a classificação de cobertura a partir dos dados de rastreamento do jogador, seguido por nossa avaliação quantitativa e resultados de explicação do modelo.

Formulação de problemas e desafios

Definimos a classificação da cobertura defensiva como uma tarefa de classificação multiclasse, com três tipos de cobertura de homem (onde cada jogador de defesa cobre um determinado jogador ofensivo) e cinco tipos de cobertura de zona (cada jogador de defesa cobre uma determinada área do campo). Essas oito classes são representadas visualmente na figura a seguir: Cover 0 Man, Cover 1 Man, Cover 2 Man, Cover 2 Zone, Cover 3 Zone, Cover 4 Zone, Cover 6 Zone e Prevent (também cobertura de zona). Os círculos em azul são os jogadores de defesa dispostos em um determinado tipo de cobertura; círculos em vermelho são os jogadores ofensivos. Uma lista completa dos acrônimos dos jogadores é fornecida no apêndice no final deste post.

Oito coberturas consideradas no post

A visualização a seguir mostra um exemplo de jogada, com a localização de todos os jogadores ofensivos e defensivos no início da jogada (à esquerda) e no meio da mesma jogada (à direita). Para fazer a identificação correta da cobertura, uma grande quantidade de informações ao longo do tempo deve ser considerada, incluindo a forma como os defensores se alinharam antes do snap e os ajustes no movimento do jogador ofensivo após o snap da bola. Isso representa o desafio para o modelo de capturar movimentos e interações espaço-temporais e muitas vezes sutis entre os jogadores.

Dois quadros de um jogo de exemplo mostrando as localizações dos jogadores

Outro desafio importante enfrentado por nossa parceria é a ambiguidade inerente em torno dos esquemas de cobertura implantados. Além dos oito esquemas de cobertura comumente conhecidos, identificamos ajustes em chamadas de cobertura mais específicas que levam à ambigüidade entre as oito classes gerais tanto para gráficos manuais quanto para classificação de modelos. Enfrentamos esses desafios usando estratégias de treinamento aprimoradas e explicação do modelo. Descrevemos nossas abordagens em detalhes na seção a seguir.

Estrutura de classificação de cobertura explicável

Ilustramos nossa estrutura geral na figura a seguir, com a entrada de dados de rastreamento do jogador e rótulos de cobertura começando no topo da figura.

Estrutura geral para classificação de cobertura

Engenharia de recursos

Os dados de rastreamento do jogo são capturados em 10 quadros por segundo, incluindo a localização, velocidade, aceleração e orientação do jogador. Nossa engenharia de recursos constrói sequências de recursos de reprodução como entrada para a digestão do modelo. Para um determinado quadro, nossos recursos são inspirados na solução 2020 Big Data Bowl Kaggle Zoo (Gordeev et al.): construímos uma imagem para cada passo de tempo com os defensores nas linhas e os ofensivos nas colunas. O pixel da imagem, portanto, representa as características do par de jogadores que se cruzam. Diferente de Gordeev et al., extraímos uma sequência das representações do quadro, que efetivamente gera um minivídeo para caracterizar a peça.

A figura a seguir visualiza como os recursos evoluem ao longo do tempo em correspondência com dois instantâneos de uma peça de exemplo. Para clareza visual, mostramos apenas quatro recursos de todos os que extraímos. “LOS” na figura representa a linha de scrimmage, e o eixo x refere-se à direção horizontal à direita do campo de futebol. Observe como os valores dos recursos, indicados pela barra de cores, evoluem ao longo do tempo em correspondência com o movimento do jogador. Ao todo, construímos dois conjuntos de recursos da seguinte maneira:

  • Recursos do defensor que consistem na posição, velocidade, aceleração e orientação do defensor, no eixo x (direção horizontal à direita do campo de futebol) e no eixo y (direção vertical para o topo do campo de futebol)
  • Recursos relativos defensor-ataque consistindo nos mesmos atributos, mas calculados como a diferença entre os jogadores defensivos e ofensivos

Os recursos extraídos evoluem ao longo do tempo, correspondendo ao movimento do jogador na peça de exemplo

Módulo CNN

Utilizamos uma rede neural convolucional (CNN) para modelar as interações complexas do jogador semelhantes ao Open Source Football (Baldwin e outros.) e a solução Big Data Bowl Kaggle Zoo (Gordeev et al.). A imagem obtida da engenharia de recursos facilitou a modelagem de cada quadro de reprodução por meio de uma CNN. Modificamos o bloco convolucional (Conv) utilizado pela solução Zoo (Gordeev et al.) com uma estrutura de ramificação composta por uma CNN rasa de uma camada e uma CNN profunda de três camadas. A camada de convolução utiliza um kernel 1 × 1 internamente: ter o kernel olhando para cada par de jogadores individualmente garante que o modelo seja invariável para a ordem do jogador. Para simplificar, ordenamos os jogadores com base em suas IDs da NFL para todas as amostras de jogadas. Obtemos as incorporações de quadro como saída do módulo CNN.

Modelagem temporal

Dentro do curto período de reprodução com duração de apenas alguns segundos, ele contém dinâmicas temporais ricas como indicadores-chave para identificar a cobertura. A modelagem CNN baseada em quadros, conforme usada na solução Zoo (Gordeev et al.), não foi responsável pela progressão temporal. Para enfrentar esse desafio, projetamos um módulo de auto-atenção (Vaswani et ai.), empilhados no topo da CNN, para modelagem temporal. Durante o treinamento, ele aprende a agregar os quadros individuais pesando-os de forma diferente (Alammar et al.). Vamos compará-lo com uma abordagem LSTM bidirecional mais convencional na avaliação quantitativa. As incorporações de atenção aprendidas como saída são então calculadas para obter a incorporação de toda a peça. Finalmente, uma camada totalmente conectada é conectada para determinar a classe de cobertura da peça.

Model ensemble e label smoothing

A ambigüidade entre os oito esquemas de cobertura e sua distribuição desequilibrada tornam desafiadora a clara separação entre as coberturas. Utilizamos o conjunto de modelos para enfrentar esses desafios durante o treinamento do modelo. Nosso estudo descobriu que um ensemble baseado em votação, um dos métodos de ensemble mais simplistas, na verdade supera abordagens mais complexas. Neste método, cada modelo base tem a mesma arquitetura de atenção CNN e é treinado independentemente de diferentes sementes aleatórias. A classificação final leva a média sobre as saídas de todos os modelos básicos.

Além disso, incorporamos a suavização de rótulos (Müller et al.) na perda de entropia cruzada para lidar com o ruído potencial em rótulos de gráficos manuais. A suavização de rótulo orienta a classe de cobertura anotada levemente em direção às classes restantes. A ideia é encorajar o modelo a se adaptar à ambigüidade de cobertura inerente, em vez de se ajustar a qualquer anotação tendenciosa.

Avaliação quantitativa

Utilizamos dados da temporada 2018-2020 para treinamento e validação do modelo e dados da temporada 2021 para avaliação do modelo. Cada temporada consiste em cerca de 17,000 jogadas. Realizamos uma validação cruzada de cinco vezes para selecionar o melhor modelo durante o treinamento e realizamos a otimização de hiperparâmetros para selecionar as melhores configurações na arquitetura de vários modelos e parâmetros de treinamento.

Para avaliar o desempenho do modelo, calculamos a precisão da cobertura, a pontuação F1, a precisão dos 2 primeiros e a precisão da tarefa homem versus zona mais fácil. O modelo Zoo baseado na CNN usado em Baldwin e outros. é o mais relevante para classificação de cobertura e o utilizamos como linha de base. Além disso, consideramos versões aprimoradas da linha de base que incorporam os componentes de modelagem temporal para estudo comparativo: um modelo CNN-LSTM que utiliza um LSTM bidirecional para realizar a modelagem temporal e um único modelo CNN-atenção sem o conjunto e rótulo componentes de alisamento. Os resultados são mostrados na tabela a seguir.

Modelo Precisão do teste 8 Coberturas (%) Top 2 Precisão 8 Coberturas (%) Pontuação F1 8 Coberturas Precisão do teste Homem vs. Zona (%)
Linha de base: modelo de zoológico 68.8 0.4 ± 87.7 0.1 ± 65.8 0.4 ± 88.4 0.4 ±
CNN-LSTM 86.5 0.1 ± 93.9 0.1 ± 84.9 0.2 ± 94.6 0.2 ±
CNN-atenção 87.7 0.2 ± 94.7 0.2 ± 85.9 0.2 ± 94.6 0.2 ±
Nosso: conjunto de 5 modelos de atenção da CNN 88.9 0.1 ± 97.6 0.1 ± 87.4 0.2 ± 95.4 0.1 ±

Observamos que a incorporação do módulo de modelagem temporal melhora significativamente o modelo básico do Zoo que foi baseado em um único quadro. Em comparação com a forte linha de base do modelo CNN-LSTM, nossos componentes de modelagem propostos, incluindo o módulo de auto-atenção, conjunto de modelos e suavização de rotulagem combinados, fornecem uma melhoria significativa no desempenho. O modelo final é performático conforme demonstrado pelas medidas de avaliação. Além disso, identificamos uma precisão de top 2 muito alta e uma lacuna significativa para a precisão de top 1. Isso pode ser atribuído à ambigüidade da cobertura: quando a classificação principal está incorreta, a segunda suposição geralmente corresponde à anotação humana.

Explicações e resultados do modelo

Para esclarecer a ambigüidade da cobertura e entender o que o modelo utilizou para chegar a uma determinada conclusão, realizamos análises usando explicações do modelo. Consiste em duas partes: explicações globais que analisam todas as incorporações aprendidas em conjunto e explicações locais que ampliam as jogadas individuais para analisar os sinais mais importantes capturados pelo modelo.

Explicações globais

Nesta fase, analisamos as incorporações de jogos aprendidos do modelo de classificação de cobertura globalmente para descobrir quaisquer padrões que exijam revisão manual. Utilizamos a incorporação estocástica de vizinhança t-distribuída (t-SNE) (Maaten et ai.) que projeta as incorporações de reprodução no espaço 2D, como um par de incorporações semelhantes, com alta probabilidade em sua distribuição. Experimentamos os parâmetros internos para extrair projeções 2D estáveis. Os embeddings de amostras estratificadas de 9,000 jogadas são visualizados na figura a seguir (à esquerda), com cada ponto representando uma determinada jogada. Descobrimos que a maioria de cada esquema de cobertura está bem separada, demonstrando a capacidade de classificação adquirida pelo modelo. Observamos dois padrões importantes e os investigamos mais a fundo.

Algumas jogadas se misturam a outros tipos de cobertura, como mostra a figura a seguir (à direita). Essas jogadas podem ser rotuladas incorretamente e merecem inspeção manual. Projetamos um classificador K-Nearest Neighbors (KNN) para identificar automaticamente essas jogadas e enviá-las para análise especializada. Os resultados mostram que a maioria deles foi de fato rotulada incorretamente.

visualização t-SNE de incorporações de jogos e jogos identificados para revisão manual

A seguir, observamos várias regiões sobrepostas entre os tipos de cobertura, manifestando ambigüidade de cobertura em determinados cenários. Como exemplo, na figura a seguir, separamos Cover 3 Zone (cluster verde à esquerda) e Cover 1 Man (cluster azul no meio). Estes são dois conceitos diferentes de cobertura única alta, onde a principal distinção é a cobertura homem versus zona. Projetamos um algoritmo que identifica automaticamente a ambigüidade entre essas duas classes como a região de sobreposição dos clusters. O resultado é visualizado como os pontos vermelhos na figura à direita a seguir, com 10 jogadas amostradas aleatoriamente marcadas com um “x” preto para revisão manual. Nossa análise revela que a maioria dos exemplos de jogo nesta região envolve algum tipo de correspondência de padrão. Nessas jogadas, as responsabilidades de cobertura dependem de como as rotas dos recebedores ofensivos são distribuídas, e os ajustes podem fazer com que a jogada pareça uma mistura de zona e coberturas de homem. Um desses ajustes que identificamos se aplica à Cover 3 Zone, quando o cornerback (CB) de um lado está travado na cobertura do homem (“Man Everywhere he Goes” ou MEG) e o outro tem uma queda de zona tradicional.

Região sobreposta entre Cover 3 Zone e Cover 1 Man

Explicações de instância

No segundo estágio, as explicações da instância ampliam o jogo individual de interesse e extraem os destaques da interação do jogador quadro a quadro que mais contribuem para o esquema de cobertura identificado. Isso é obtido por meio do algoritmo Guided GradCAM (Ramprasaath et ai.). Utilizamos as explicações de instância em previsões de modelo de baixa confiança.

Para a jogada que ilustramos no início do post, o modelo previu Cover 3 Zone com 44.5% de probabilidade e Cover 1 Man com 31.3% de probabilidade. Geramos os resultados da explicação para ambas as classes, conforme mostrado na figura a seguir. A espessura da linha anota a força da interação que contribui para a identificação do modelo.

O gráfico superior para a explicação da Cover 3 Zone vem logo após o snap da bola. O CB da direita do ataque tem as linhas de interação mais fortes, pois está de frente para o QB e se mantém no lugar. Ele acaba se posicionando e acertando com o recebedor ao seu lado, que o ameaça profundamente.

O enredo inferior para a explicação de Cover 1 Man vem um momento depois, quando a simulação de ação de jogo está acontecendo. Uma das interações mais fortes é com o CB à esquerda do ataque, que está caindo com o WR. As filmagens revelam que ele mantém os olhos no QB antes de virar e correr com o WR que o está ameaçando profundamente. O SS da direita do ataque também tem uma forte interação com o TE do seu lado, pois ele começa a embaralhar conforme o TE quebra para dentro. Ele acaba seguindo-o pela formação, mas o TE começa a bloqueá-lo, indicando que a jogada provavelmente foi uma opção de passe corrido. Isso explica a incerteza da classificação do modelo: o TE está aderindo ao SS por design, criando vieses nos dados.

A explicação do modelo para Cover 3 Zone vem logo após o snap da bola

A explicação do modelo para Cover 1 Man vem um momento depois, quando a falsa ação de jogo está acontecendo

Conclusão

O Amazon ML Solutions Lab e a equipe Next Gen Stats da NFL desenvolveram em conjunto a estatística de classificação de cobertura de defesa que foi recentemente lançado para a temporada de futebol da NFL de 2022. Esta postagem apresentou os detalhes técnicos de ML dessa estatística, incluindo a modelagem da progressão temporal rápida, estratégias de treinamento para lidar com a ambigüidade da classe de cobertura e explicações abrangentes do modelo para acelerar a revisão especializada nos níveis global e de instância.

A solução torna as tendências e divisões de cobertura defensiva ao vivo disponíveis para as emissoras no jogo pela primeira vez. Da mesma forma, o modelo permite que a NFL melhore sua análise dos resultados pós-jogo e identifique melhor as principais partidas que antecederam os jogos.

Se você precisar de ajuda para acelerar o uso do ML, entre em contato com o Laboratório de soluções de ML da Amazon .

Apêndice

Acrônimos de posição do jogador
posições defensivas
W “Will” Linebacker, ou o lado fraco LB
M “Mike” Linebacker, ou o meio LB
S “Sam” Linebacker, ou o lado forte LB
CB Recuo
DE Final Defensivo
DT Equipamento Defensivo
NT Equipamento de nariz
FS Segurança Gratuita
SS Segurança forte
S Segurança
LB Linebacker
HE B Linebacker Interno
OLB Linebacker externo
MLB Linebacker médio
posições ofensivas
X Normalmente, o wide receiver número 1 em um ataque, eles se alinham no LOS. Em formações de trip, este receptor geralmente é alinhado isolado na parte traseira.
Y Normalmente, o tight end inicial, esse jogador costuma alinhar em linha e no lado oposto ao X.
Z Normalmente mais como um receptor de slot, este jogador geralmente se alinha fora da linha de scrimmage e no mesmo lado do campo que o tight end.
H Tradicionalmente um zagueiro, este jogador é mais frequentemente um terceiro wide receiver ou um segundo tight end na liga moderna. Eles podem se alinhar em toda a formação, mas quase sempre estão fora da linha de scrimmage. Dependendo da equipe, este jogador também pode ser designado como um F.
T O running back em destaque. Além de formações vazias, este jogador alinhará no backfield e será uma ameaça para receber a transferência.
QB Quarterback
C Centralização de
G Guarda
RB Running Back
FB Volta completa
WR Wide Receiver
TE extremidade apertada
LG Guarda Esquerda
RG Guarda Direita
T Enfrentar
LT Esquerda
RT Tackle direito

Referências


Sobre os autores

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Canção Huan é um cientista aplicado no Amazon Machine Learning Solutions Lab, onde trabalha no fornecimento de soluções de ML personalizadas para casos de uso de clientes de alto impacto de uma variedade de indústrias verticais. Seus interesses de pesquisa são redes neurais de grafos, visão computacional, análise de séries temporais e suas aplicações industriais.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Mohamad Al Jazaery é um cientista aplicado no Amazon Machine Learning Solutions Lab. Ele ajuda os clientes da AWS a identificar e criar soluções de ML para enfrentar seus desafios de negócios em áreas como logística, personalização e recomendações, visão computacional, prevenção de fraudes, previsão e otimização da cadeia de suprimentos. Antes da AWS, ele obteve seu MCS da West Virginia University e trabalhou como pesquisador de visão computacional na Midea. Fora do trabalho, ele gosta de futebol e videogame.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Haibo Ding é um cientista aplicado sênior no Amazon Machine Learning Solutions Lab. Ele está amplamente interessado em Deep Learning e Processamento de Linguagem Natural. Sua pesquisa se concentra no desenvolvimento de novos modelos explicáveis ​​de aprendizado de máquina, com o objetivo de torná-los mais eficientes e confiáveis ​​para problemas do mundo real. Ele obteve seu Ph.D. da Universidade de Utah e trabalhou como cientista de pesquisa sênior na Bosch Research North America antes de ingressar na Amazon. Além do trabalho, ele gosta de caminhar, correr e passar tempo com sua família.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Lin Lee Cheong é gerente de ciência aplicada da equipe do Amazon ML Solutions Lab na AWS. Ela trabalha com clientes estratégicos da AWS para explorar e aplicar inteligência artificial e aprendizado de máquina para descobrir novos insights e resolver problemas complexos. Ela recebeu seu Ph.D. do Instituto de Tecnologia de Massachusetts. Fora do trabalho, ela gosta de ler e fazer caminhadas.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Jonathan Jung é Engenheiro de Software Sênior na National Football League. Ele está com a equipe Next Gen Stats nos últimos sete anos, ajudando a construir a plataforma de streaming de dados brutos, construindo microsserviços para processar os dados, para construir APIs que expõem os dados processados. Ele colaborou com o Amazon Machine Learning Solutions Lab fornecendo dados limpos para eles trabalharem, bem como fornecendo conhecimento de domínio sobre os próprios dados. Fora do trabalho, ele gosta de andar de bicicleta em Los Angeles e fazer caminhadas nas serras.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Mike Banda é gerente sênior de pesquisa e análise para estatísticas de próxima geração na National Football League. Desde que ingressou na equipe em 2018, ele é responsável pela concepção, desenvolvimento e comunicação das principais estatísticas e percepções derivadas de dados de rastreamento de jogadores para torcedores, parceiros de transmissão da NFL e para os 32 clubes. Mike traz uma riqueza de conhecimento e experiência para a equipe com um mestrado em análise da Universidade de Chicago, um diploma de bacharel em gestão esportiva da Universidade da Flórida e experiência tanto no departamento de prospecção do Minnesota Vikings quanto no departamento de recrutamento do Florida Gator Football.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Michael Chi é um Diretor Sênior de Tecnologia que supervisiona Estatísticas de Próxima Geração e Engenharia de Dados na National Football League. Ele é formado em Matemática e Ciência da Computação pela Universidade de Illinois em Urbana Champaign. Michael ingressou na NFL pela primeira vez em 2007 e se concentrou principalmente em tecnologia e plataformas para estatísticas de futebol. Em seu tempo livre, ele gosta de passar o tempo com sua família ao ar livre.

Identificando esquemas de cobertura de defesa no Next Gen Stats PlatoBlockchain Data Intelligence da NFL. Pesquisa vertical. Ai.Felicidade de Thompson é gerente de operações de futebol e cientista de dados da National Football League. Ele começou na NFL em fevereiro de 2020 como Cientista de Dados e foi promovido à sua função atual em dezembro de 2021. Ele concluiu seu mestrado em Ciência de Dados na Columbia University na cidade de Nova York em dezembro de 2019. Ele recebeu um Bacharelado em Ciências em Física e Astronomia com minors em Matemática e Ciência da Computação na University of Wisconsin – Madison em 2018.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS