GluonTS を使用したファットテール分布によるフットボールのパントとキックオフのリターンヤードの予測

プラトン再発行

フォロワー： 0

今日、NFL は、提供される統計の数を増やすための旅を続けています。次世代統計プラットフォーム全32チームとファンの皆様へ。機械学習 (ML) から派生した高度な分析を使用して、NFL はフットボールを定量化する新しい方法を作成し、ファンにサッカーの知識を増やすために必要なツールを提供しています。 ゲーム内ゲーム サッカーの。 2022 シーズンに向けて、NFL は選手追跡データと新しい高度な分析技術を活用することを目指しました特別なチームをよりよく理解するために.

このプロジェクトの目標は、リターナーがパントまたはキックオフプレーで何ヤード獲得できるかを予測することでした。パントとキックオフリターンの予測モデルを構築する際の課題の XNUMX つは、タッチダウンなど、ゲームのダイナミクスにおいて非常に重要な非常にまれなイベントを利用できるかどうかです。ファットテールを含むデータ分布は、まれなイベントがモデルの全体的なパフォーマンスに大きな影響を与える現実世界のアプリケーションでは一般的です。堅牢な方法を使用して極端なイベントの分布を正確にモデル化することは、全体的なパフォーマンスを向上させるために重要です。

この投稿では、GluonTS に実装された Spliced Binned-Pareto 分布を使用して、そのような裾の太い分布をロバストにモデル化する方法を示します。

まず、使用するデータセットについて説明します。次に、データセットに適用されるデータの前処理とその他の変換方法を示します。次に、ML の方法論とモデルのトレーニング手順の詳細について説明します。最後に、モデルのパフォーマンス結果を示します。

データセット

この投稿では、3,000 つのデータセットを使用して、パントリターンとキックオフリターンの個別のモデルを構築しました。プレーヤーの追跡データには、プレーヤーの位置、方向、加速度など (x、y 座標) が含まれます。 NFL の 4,000 シーズン (2018 ～ 2021 年) では、パントとキックオフのプレーでそれぞれ約 0.23 と 0.8 のプレーがあります。さらに、データセットにはパントとキックオフに関連するタッチダウンはほとんどなく、それぞれわずか XNUMX% と XNUMX% です。パントとキックオフのデータ分布は異なります。たとえば、次の図に示すように、キックオフとパントの実際のヤード数分布は類似していますが、ずれています。

パントとキックオフリターンヤードの分布

データ前処理と機能エンジニアリング

まず、パントとキックオフリターンに関連するデータのみを対象に、追跡データをフィルター処理しました。プレーヤーデータは、モデル開発の機能を導出するために使用されました。

X – フィールドの長軸に沿ったプレイヤーの位置
Y – フィールドの短軸に沿ったプレーヤーの位置
S – ヤード/秒の速度; より正確にするために Dis*10 に置き換えます (Dis は過去 0.1 秒の距離です)。
あなた – プレーヤーの動きの角度 (度)

前のデータから、各プレーは 10 X 11 X 14 のデータに変換され、10 人のオフェンスプレーヤー (ボールキャリアを除く)、11 人のディフェンダー、および 14 の派生機能が含まれます。

sX – プレーヤーの x 速度
sY – プレイヤーの速度
s – 選手のスピード
aX – x プレーヤーの加速度
aY – プレーヤーの y 加速度
リリースX – x ボールキャリアに対するプレーヤーの距離
頼る – ボールキャリアに対するプレーヤーの y 距離
relSx – x ボールキャリアに対するプレーヤーの速度
relSy – ボールキャリアに対するプレーヤーの y 速度
相対距離 – ボールキャリアに対するプレーヤーのユークリッド距離
オップX – x ディフェンスプレーヤーに対するオフェンスプレーヤーの距離
反対 – ディフェンスプレーヤーに対するオフェンスプレーヤーの y 距離
oppSx – 防御側プレーヤーに対する攻撃側プレーヤーの速度 x
反対 – ディフェンスプレーヤーに対するオフェンスプレーヤーの速度

データを増やして左右の位置を説明するために、X と Y の位置の値もミラーリングして、左右のフィールド位置を説明しました。データの前処理と特徴エンジニアリングは、 NFL ビッグデータボウル Kaggle での競争。

ML の方法論とモデルのトレーニング

タッチダウンの確率を含む、プレーから起こり得るすべての結果に関心があるため、回帰問題として得られる平均ヤードを単純に予測することはできません。すべての可能なヤードゲインの完全な確率分布を予測する必要があるため、この問題を確率的予測として組み立てました。

確率的予測を実装する 0 つの方法は、獲得したヤードをいくつかのビン (0 未満、1 ～ 1、2 ～ 14、…、15 ～ 15、XNUMX 以上など) に割り当て、ビンを分類として予測することです。問題。このアプローチの欠点は、小さなビンに分布の高精細画像を表示したいということですが、小さなビンはビンごとのデータポイントが少なくなることを意味し、分布、特にテールは不十分に推定され、不規則になる可能性があります。

確率的予測を実装するもう XNUMX つの方法は、限られた数のパラメーター (ガウス分布やガンマ分布など) を使用して出力を連続確率分布としてモデル化し、パラメーターを予測することです。このアプローチは、分布の非常に高精細で規則的な図を提供しますが、取得ヤードの真の分布に適合するには硬すぎます。

両方の方法を最大限に活用するには、スプライスされたビン分割パレート分布 (SBP) には、大量のデータが利用可能な分布の中心にビンがあります。一般化パレート分布 (GPD) 両端で、タッチダウンなど、まれではあるが重要なイベントが発生する可能性があります。次のグラフに示すように、GPD には XNUMX つのパラメーターがあります。

GPD をビン化された分布 (次の左のグラフを参照) で両側に接合することにより、次の右側の SBP が得られます。スプライシングが行われる下限と上限のしきい値はハイパーパラメーターです。

ビン化された SPB 分布

ベースラインとして、私たちは勝利したモデルを使用しました NFL ビッグデータボウル Kaggle での競争。このモデルは、CNN レイヤーを使用して、準備されたデータから特徴を抽出し、結果を「ビンごとに 1 ヤード」の分類問題として予測します。私たちのモデルでは、ベースラインから特徴抽出レイヤーを保持し、次の図に示すように、各ビンの確率ではなく SBP パラメーターを出力するように最後のレイヤーのみを変更しました (投稿から編集された画像)。 1 位のソリューション The Zoo).

モデルアーキテクチャ

が提供する SBP ディストリビューションを使用しました。グルオンTS. GluonTS は確率的時系列モデリング用の Python パッケージですが、SBP 分布は時系列に固有のものではないため、回帰用に再利用することができました。 GluonTS SBP の使用方法の詳細については、次のデモを参照してください。ノート.

モデルは、2018 年、2019 年、および 2020 シーズンでトレーニングおよび相互検証され、2021 シーズンでテストされました。相互検証中の漏れを避けるために、同じゲームのすべてのプレイを同じフォールドにグループ化しました。

評価のために、Kaggle コンペティションで使用されたメトリックを保持しました。連続ランク確率スコア (CRPS)これは、外れ値に対してよりロバストな対数尤度の代替と見なすことができます。また、ピアソン相関係数と RMSE 一般的で解釈可能な精度指標として。さらに、タッチダウンの確率と確率プロットを調べて、キャリブレーションを評価しました。

モデルは、以下を使用して CRPS 損失についてトレーニングされました。確率的重み平均そして早期停止。

出力分布のビン化された部分の不規則性に対処するために、XNUMX つの手法を使用しました。

XNUMX つの連続するビン間の差の XNUMX 乗に比例する滑らかさのペナルティ
交差検証中にトレーニングされたアンサンブルモデル

モデルのパフォーマンス結果

データセットごとに、次のオプションでグリッド検索を実行しました。

確率モデル
- ベースラインは XNUMX ヤードあたり XNUMX つの確率でした
- SBP は、中央では XNUMX ヤードあたり XNUMX つの確率、テールでは一般化された SBP でした。
分布の平滑化
- 平滑化なし (平滑性ペナルティ = 0)
- 滑らかさのペナルティ = 5
- 滑らかさのペナルティ = 10
トレーニングと推論の手順
- 10 フォールドの交差検証とアンサンブル推論 (k10)
- 10 エポックまたは 20 エポックのトレーニングおよび検証データのトレーニング

次に、CRPS でソートされた上位 XNUMX つのモデルの指標を調べました (低いほど良い)。

キックオフデータの場合、SBP モデルは CRPS に関してわずかに優れていますが、さらに重要なことは、タッチダウン確率をより適切に推定することです (テストセットでの真の確率は 0.80% です)。次の表に示すように、最良のモデルは 10 フォールドアンサンブル (k10) を使用し、滑らかさのペナルティはありません。

トレーニング	モデル	滑らか	CRPS	RMSE	正解率	P(タッチダウン)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	ベースライン	0	4.074	9.62	47.585	0.306
k10	ベースライン	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	ベースライン	10	4.08	9.621	47.519	0.265

観測された頻度と予測された確率の次のプロットは、0.27 つの分布間の RMSE が 100 であり、最良のモデルの適切なキャリブレーションを示しています。真の (青の) 経験的分布の末尾に発生する高ヤード数 (たとえば、XNUMX) の発生に注意してください。その確率は、ベースライン手法よりも SBP の方が捕捉しやすくなっています。

キックオフの観測頻度と予測確率分布

パントデータの場合、ベースラインは SBP よりも優れています。したがって、0 ～ 10 ヤードのピークの間のモダリティを捉えるほうがよいトレードオフです。キックオフデータとは対照的に、最良のモデルは滑らかさのペナルティを使用します。次の表は、調査結果をまとめたものです。

トレーニング	モデル	滑らか	CRPS	RMSE	正解率	P(タッチダウン)%
k10	ベースライン	5	3.961	8.313	35.227	0.547
k10	ベースライン	0	3.972	8.346	34.227	0.579
k10	ベースライン	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

次の XNUMX つの最適なパントモデルの観測頻度 (青色) と予測確率のプロットは、平滑化されていないモデル (オレンジ色) が平滑化されたモデル (緑色) よりもわずかに適切に調整されており、全体的により適切な選択である可能性があることを示しています。

パントの真の確率と予測される確率

まとめ

この投稿では、ファットテールデータ分布を使用して予測モデルを構築する方法を示しました。 GluonTS に実装された Spliced Binned-Pareto 分布を使用しました。この手法を使用して、パントとキックオフリターンのモデルを構築しました。このソリューションは、データ内のイベントがほとんどない類似のユースケースに適用できますが、これらのイベントはモデルの全体的なパフォーマンスに大きな影響を与えます。

製品やサービスでのMLの使用を促進するためのサポートが必要な場合は、 Amazon MLソリューションラボプログラム。

著者について

GluonTS PlatoBlockchain Data Intelligence を使用して、ファットテール分布でフットボールのパントとキックオフのリターンヤードを予測します。垂直検索。あい。 テスファガビル・メハリズギ のデータサイエンティストです Amazon MLソリューションラボ彼は、ヘルスケアとライフサイエンス、製造、自動車、スポーツとメディアなど、さまざまな業界の AWS のお客様を支援し、ビジネス上の課題を解決するために機械学習と AWS クラウドサービスの使用を加速させています。

マーク・ヴァン・アウトフースデン アマゾンウェブサービスのアマゾンMLソリューションラボチームのシニアデータサイエンティストです。彼はAWSのお客様と協力して、人工知能と機械学習でビジネス上の問題を解決しています。仕事以外では、ビーチで彼を見つけたり、子供たちと遊んだり、サーフィンやカイトサーフィンをしたりすることがあります。

パンパン・シュー AWS の Amazon ML Solutions Lab の上級応用科学者兼マネージャーです。彼女は、AI とクラウドの採用を加速するために、さまざまな業界で影響力の大きい顧客アプリケーション向けの機械学習アルゴリズムの研究開発に取り組んでいます。彼女の研究対象には、モデルの解釈可能性、因果分析、ヒューマンインザループ AI、インタラクティブなデータ視覚化が含まれます。

GluonTS PlatoBlockchain Data Intelligence を使用して、ファットテール分布でフットボールのパントとキックオフのリターンヤードを予測します。垂直検索。あい。 キョンフン (ジョナサン) チョン ナショナルフットボールリーグのシニアソフトウェアエンジニアです。彼は過去 XNUMX 年間、Next Gen Stats チームに所属し、生データのストリーミングから、データを処理するためのマイクロサービスの構築、処理されたデータを公開する API の構築まで、プラットフォームの構築を支援してきました。彼は、Amazon Machine Learning Solutions Lab と協力して、データ自体に関するドメイン知識を提供するだけでなく、操作するためのクリーンなデータを提供しています。仕事以外では、ロサンゼルスでのサイクリングやシエラネバダでのハイキングを楽しんでいます。

GluonTS PlatoBlockchain Data Intelligence を使用して、ファットテール分布でフットボールのパントとキックオフのリターンヤードを予測します。垂直検索。あい。 マイケル・チー ナショナルフットボールリーグで次世代統計とデータエンジニアリングを監督するテクノロジー担当シニアディレクターです。彼は、イリノイ大学アーバナシャンペーン校で数学とコンピューターサイエンスの学位を取得しています。マイケルは 2007 年に初めて NFL に参加し、主にサッカー統計のテクノロジーとプラットフォームに注力してきました。余暇には、家族と屋外で過ごす時間を楽しんでいます。

マイク・バンド は、ナショナルフットボールリーグの次世代統計の調査および分析のシニアマネージャーです。 2018 年にチームに加わって以来、彼はファン、NFL 放送パートナー、32 クラブの選手追跡データから得られた重要な統計と洞察の構想、開発、伝達を担当してきました。マイクは、シカゴ大学で分析学の修士号を取得し、フロリダ大学でスポーツ管理の学士号を取得し、ミネソタバイキングスのスカウト部門と採用部門の両方での経験を活かして、豊富な知識と経験をチームにもたらします。フロリダゲーターフットボールの。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

タイムスタンプ： 2023 年 2 月 2 日

タイムスタンプ： 2022 年 4 月 5 日

プラトン再発行

サーバーレス AWS Glue インタラクティブセッションを使用して、Amazon SageMaker Studio で大規模なデータを準備します

Amazon Lookout for Vision の画像拡張パイプライン

AmazonTextractとAmazonPollyを使用して、視覚障害者がドキュメントを聞くことができるようにします

チケット処理のためにServiceNowをAmazonLexチャットボットと統合する

ウェアラブルデバイスからのデータを使用してほぼリアルタイムで心臓の異常を検出するための AWS クラウドテクノロジー

AWS でコンピュータービジョンパイプライン用の合成データを作成する

AmazonSageMakerXGBoostアルゴリズムコンテナをカスタマイズする

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー