今日、NFL は、提供される統計の数を増やすための旅を続けています。 次世代統計プラットフォーム 全32チームとファンの皆様へ。 機械学習 (ML) から派生した高度な分析を使用して、NFL はフットボールを定量化する新しい方法を作成し、ファンにサッカーの知識を増やすために必要なツールを提供しています。 ゲーム内ゲーム サッカーの。 2022 シーズンに向けて、NFL は選手追跡データと新しい高度な分析技術を活用することを目指しました 特別なチームをよりよく理解するために.
このプロジェクトの目標は、リターナーがパントまたはキックオフ プレーで何ヤード獲得できるかを予測することでした。 パントとキックオフ リターンの予測モデルを構築する際の課題の XNUMX つは、タッチダウンなど、ゲームのダイナミクスにおいて非常に重要な非常にまれなイベントを利用できるかどうかです。 ファット テールを含むデータ分布は、まれなイベントがモデルの全体的なパフォーマンスに大きな影響を与える現実世界のアプリケーションでは一般的です。 堅牢な方法を使用して極端なイベントの分布を正確にモデル化することは、全体的なパフォーマンスを向上させるために重要です。
この投稿では、GluonTS に実装された Spliced Binned-Pareto 分布を使用して、そのような裾の太い分布をロバストにモデル化する方法を示します。
まず、使用するデータセットについて説明します。 次に、データセットに適用されるデータの前処理とその他の変換方法を示します。 次に、ML の方法論とモデルのトレーニング手順の詳細について説明します。 最後に、モデルのパフォーマンス結果を示します。
データセット
この投稿では、3,000 つのデータセットを使用して、パント リターンとキックオフ リターンの個別のモデルを構築しました。 プレーヤーの追跡データには、プレーヤーの位置、方向、加速度など (x、y 座標) が含まれます。 NFL の 4,000 シーズン (2018 ~ 2021 年) では、パントとキックオフのプレーでそれぞれ約 0.23 と 0.8 のプレーがあります。 さらに、データセットにはパントとキックオフに関連するタッチダウンはほとんどなく、それぞれわずか XNUMX% と XNUMX% です。 パントとキックオフのデータ分布は異なります。 たとえば、次の図に示すように、キックオフとパントの実際のヤード数分布は類似していますが、ずれています。
データ前処理と機能エンジニアリング
まず、パントとキックオフ リターンに関連するデータのみを対象に、追跡データをフィルター処理しました。 プレーヤー データは、モデル開発の機能を導出するために使用されました。
- X – フィールドの長軸に沿ったプレイヤーの位置
- Y – フィールドの短軸に沿ったプレーヤーの位置
- S – ヤード/秒の速度; より正確にするために Dis*10 に置き換えます (Dis は過去 0.1 秒の距離です)。
- あなた – プレーヤーの動きの角度 (度)
前のデータから、各プレーは 10 X 11 X 14 のデータに変換され、10 人のオフェンス プレーヤー (ボール キャリアを除く)、11 人のディフェンダー、および 14 の派生機能が含まれます。
- sX – プレーヤーの x 速度
- sY – プレイヤーの速度
- s – 選手のスピード
- aX – x プレーヤーの加速度
- aY – プレーヤーの y 加速度
- リリースX – x ボール キャリアに対するプレーヤーの距離
- 頼る – ボール キャリアに対するプレーヤーの y 距離
- relSx – x ボール キャリアに対するプレーヤーの速度
- relSy – ボール キャリアに対するプレーヤーの y 速度
- 相対距離 – ボール キャリアに対するプレーヤーのユークリッド距離
- オップX – x ディフェンス プレーヤーに対するオフェンス プレーヤーの距離
- 反対 – ディフェンス プレーヤーに対するオフェンス プレーヤーの y 距離
- oppSx – 防御側プレーヤーに対する攻撃側プレーヤーの速度 x
- 反対 – ディフェンス プレーヤーに対するオフェンス プレーヤーの速度
データを増やして左右の位置を説明するために、X と Y の位置の値もミラーリングして、左右のフィールド位置を説明しました。 データの前処理と特徴エンジニアリングは、 NFL ビッグデータ ボウル Kaggle での競争。
ML の方法論とモデルのトレーニング
タッチダウンの確率を含む、プレーから起こり得るすべての結果に関心があるため、回帰問題として得られる平均ヤードを単純に予測することはできません。 すべての可能なヤード ゲインの完全な確率分布を予測する必要があるため、この問題を確率的予測として組み立てました。
確率的予測を実装する 0 つの方法は、獲得したヤードをいくつかのビン (0 未満、1 ~ 1、2 ~ 14、…、15 ~ 15、XNUMX 以上など) に割り当て、ビンを分類として予測することです。問題。 このアプローチの欠点は、小さなビンに分布の高精細画像を表示したいということですが、小さなビンはビンごとのデータ ポイントが少なくなることを意味し、分布、特にテールは不十分に推定され、不規則になる可能性があります。
確率的予測を実装するもう XNUMX つの方法は、限られた数のパラメーター (ガウス分布やガンマ分布など) を使用して出力を連続確率分布としてモデル化し、パラメーターを予測することです。 このアプローチは、分布の非常に高精細で規則的な図を提供しますが、取得ヤードの真の分布に適合するには硬すぎます。
両方の方法を最大限に活用するには、 スプライスされたビン分割パレート分布 (SBP) には、大量のデータが利用可能な分布の中心にビンがあります。 一般化パレート分布 (GPD) 両端で、タッチダウンなど、まれではあるが重要なイベントが発生する可能性があります。 次のグラフに示すように、GPD には XNUMX つのパラメーターがあります。
GPD をビン化された分布 (次の左のグラフを参照) で両側に接合することにより、次の右側の SBP が得られます。 スプライシングが行われる下限と上限のしきい値はハイパーパラメーターです。
ベースラインとして、私たちは勝利したモデルを使用しました NFL ビッグデータ ボウル Kaggle での競争。 このモデルは、CNN レイヤーを使用して、準備されたデータから特徴を抽出し、結果を「ビンごとに 1 ヤード」の分類問題として予測します。 私たちのモデルでは、ベースラインから特徴抽出レイヤーを保持し、次の図に示すように、各ビンの確率ではなく SBP パラメーターを出力するように最後のレイヤーのみを変更しました (投稿から編集された画像)。 1 位のソリューション The Zoo).
が提供する SBP ディストリビューションを使用しました。 グルオンTS. GluonTS は確率的時系列モデリング用の Python パッケージですが、SBP 分布は時系列に固有のものではないため、回帰用に再利用することができました。 GluonTS SBP の使用方法の詳細については、次のデモを参照してください。 ノート.
モデルは、2018 年、2019 年、および 2020 シーズンでトレーニングおよび相互検証され、2021 シーズンでテストされました。 相互検証中の漏れを避けるために、同じゲームのすべてのプレイを同じフォールドにグループ化しました。
評価のために、Kaggle コンペティションで使用されたメトリックを保持しました。 連続ランク確率スコア (CRPS)これは、外れ値に対してよりロバストな対数尤度の代替と見なすことができます。 また、 ピアソン相関係数 と RMSE 一般的で解釈可能な精度指標として。 さらに、タッチダウンの確率と確率プロットを調べて、キャリブレーションを評価しました。
モデルは、以下を使用して CRPS 損失についてトレーニングされました。 確率的重み平均 そして早期停止。
出力分布のビン化された部分の不規則性に対処するために、XNUMX つの手法を使用しました。
- XNUMX つの連続するビン間の差の XNUMX 乗に比例する滑らかさのペナルティ
- 交差検証中にトレーニングされたアンサンブル モデル
モデルのパフォーマンス結果
データセットごとに、次のオプションでグリッド検索を実行しました。
- 確率モデル
- ベースラインは XNUMX ヤードあたり XNUMX つの確率でした
- SBP は、中央では XNUMX ヤードあたり XNUMX つの確率、テールでは一般化された SBP でした。
- 分布の平滑化
- 平滑化なし (平滑性ペナルティ = 0)
- 滑らかさのペナルティ = 5
- 滑らかさのペナルティ = 10
- トレーニングと推論の手順
- 10 フォールドの交差検証とアンサンブル推論 (k10)
- 10 エポックまたは 20 エポックのトレーニングおよび検証データのトレーニング
次に、CRPS でソートされた上位 XNUMX つのモデルの指標を調べました (低いほど良い)。
キックオフ データの場合、SBP モデルは CRPS に関してわずかに優れていますが、さらに重要なことは、タッチダウン確率をより適切に推定することです (テスト セットでの真の確率は 0.80% です)。 次の表に示すように、最良のモデルは 10 フォールド アンサンブル (k10) を使用し、滑らかさのペナルティはありません。
トレーニング | モデル | 滑らか | CRPS | RMSE | 正解率 | P(タッチダウン)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | ベースライン | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | ベースライン | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | ベースライン | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
観測された頻度と予測された確率の次のプロットは、0.27 つの分布間の RMSE が 100 であり、最良のモデルの適切なキャリブレーションを示しています。 真の (青の) 経験的分布の末尾に発生する高ヤード数 (たとえば、XNUMX) の発生に注意してください。その確率は、ベースライン手法よりも SBP の方が捕捉しやすくなっています。
パント データの場合、ベースラインは SBP よりも優れています。 したがって、0 ~ 10 ヤードのピークの間のモダリティを捉えるほうがよいトレードオフです。 キックオフ データとは対照的に、最良のモデルは滑らかさのペナルティを使用します。 次の表は、調査結果をまとめたものです。
トレーニング | モデル | 滑らか | CRPS | RMSE | 正解率 | P(タッチダウン)% |
k10 | ベースライン | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | ベースライン | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | ベースライン | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
次の XNUMX つの最適なパント モデルの観測頻度 (青色) と予測確率のプロットは、平滑化されていないモデル (オレンジ色) が平滑化されたモデル (緑色) よりもわずかに適切に調整されており、全体的により適切な選択である可能性があることを示しています。
まとめ
この投稿では、ファットテール データ分布を使用して予測モデルを構築する方法を示しました。 GluonTS に実装された Spliced Binned-Pareto 分布を使用しました。 この手法を使用して、パントとキックオフ リターンのモデルを構築しました。 このソリューションは、データ内のイベントがほとんどない類似のユース ケースに適用できますが、これらのイベントはモデルの全体的なパフォーマンスに大きな影響を与えます。
製品やサービスでのMLの使用を促進するためのサポートが必要な場合は、 Amazon MLソリューションラボ プログラム。
著者について
テスファガビル・メハリズギ のデータサイエンティストです Amazon MLソリューションラボ 彼は、ヘルスケアとライフ サイエンス、製造、自動車、スポーツとメディアなど、さまざまな業界の AWS のお客様を支援し、ビジネス上の課題を解決するために機械学習と AWS クラウド サービスの使用を加速させています。
マーク・ヴァン・アウトフースデン アマゾンウェブサービスのアマゾンMLソリューションラボチームのシニアデータサイエンティストです。 彼はAWSのお客様と協力して、人工知能と機械学習でビジネス上の問題を解決しています。 仕事以外では、ビーチで彼を見つけたり、子供たちと遊んだり、サーフィンやカイトサーフィンをしたりすることがあります。
パンパン・シュー AWS の Amazon ML Solutions Lab の上級応用科学者兼マネージャーです。 彼女は、AI とクラウドの採用を加速するために、さまざまな業界で影響力の大きい顧客アプリケーション向けの機械学習アルゴリズムの研究開発に取り組んでいます。 彼女の研究対象には、モデルの解釈可能性、因果分析、ヒューマン イン ザ ループ AI、インタラクティブなデータ視覚化が含まれます。
キョンフン (ジョナサン) チョン ナショナル フットボール リーグのシニア ソフトウェア エンジニアです。 彼は過去 XNUMX 年間、Next Gen Stats チームに所属し、生データのストリーミングから、データを処理するためのマイクロサービスの構築、処理されたデータを公開する API の構築まで、プラットフォームの構築を支援してきました。 彼は、Amazon Machine Learning Solutions Lab と協力して、データ自体に関するドメイン知識を提供するだけでなく、操作するためのクリーンなデータを提供しています。 仕事以外では、ロサンゼルスでのサイクリングやシエラネバダでのハイキングを楽しんでいます。
マイケル・チー ナショナル フットボール リーグで次世代統計とデータ エンジニアリングを監督するテクノロジー担当シニア ディレクターです。 彼は、イリノイ大学アーバナ シャンペーン校で数学とコンピューター サイエンスの学位を取得しています。 マイケルは 2007 年に初めて NFL に参加し、主にサッカー統計のテクノロジーとプラットフォームに注力してきました。 余暇には、家族と屋外で過ごす時間を楽しんでいます。
マイク・バンド は、ナショナル フットボール リーグの次世代統計の調査および分析のシニア マネージャーです。 2018 年にチームに加わって以来、彼はファン、NFL 放送パートナー、32 クラブの選手追跡データから得られた重要な統計と洞察の構想、開発、伝達を担当してきました。 マイクは、シカゴ大学で分析学の修士号を取得し、フロリダ大学でスポーツ管理の学士号を取得し、ミネソタ バイキングスのスカウト部門と採用部門の両方での経験を活かして、豊富な知識と経験をチームにもたらします。フロリダゲーターフットボールの。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- できる
- 私たちについて
- 加速する
- 加速している
- 精度
- 正確な
- 正確にデジタル化
- 越えて
- 添加
- 養子縁組
- 高度な
- AI
- アルゴリズム
- すべて
- 代替案
- Amazon
- アマゾン機械学習
- Amazon MLソリューションラボ
- Amazon Webサービス
- 分析
- 分析論
- および
- アンヘレス
- 適用された
- 申し込む
- アプローチ
- 建築
- 周りに
- 人工の
- 人工知能
- 人工知能と機械学習
- 自動車
- 賃貸条件の詳細・契約費用のお見積り等について
- 利用できます
- 平均
- AWS
- 軸
- 玉
- ベースライン
- (ダグラス・ビーチ)
- なぜなら
- BEST
- より良いです
- の間に
- ビッグ
- ビッグデータ
- 青
- 両側
- もたらす
- 放送
- ビルド
- 建物
- ビジネス
- キャプチャー
- 例
- センター
- 課題
- シカゴ
- 子供達
- 選択
- 分類
- クラウド
- クラウドの採用
- クラウドサービス
- クラブ
- CNN
- 協力して
- コマンドと
- コミュニケーション
- コンペ
- コンピュータ
- コンピュータサイエンス
- 連続した
- 接触
- 含まれています
- 連続
- 連続的な
- 逆に
- 相関
- 作成
- 重大な
- 顧客
- Customers
- データ
- データポイント
- データサイエンティスト
- データの可視化
- データセット
- 取引
- ディフェンダー
- 防衛
- 度
- 実証します
- 部門
- 派生
- 説明する
- 細部
- 開発
- 違い
- 異なります
- 方向
- 取締役
- 距離
- ディストリビューション
- ディストリビューション
- ドメイン
- 下側
- 間に
- ダイナミクス
- 各
- 早い
- 終了
- エンジニア
- エンジニアリング
- エポック
- 特に
- 推定
- 見積もり
- 評価する
- 評価
- イベント
- 例
- 除外
- 体験
- 説明する
- エキス
- 極端な
- 家族
- ファン
- 脂肪
- 特徴
- 特徴
- 少数の
- フィールド
- フィギュア
- 最後に
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フィット
- フロリダ
- 焦点を当て
- フォロー中
- サッカー
- から
- フル
- さらに
- 利得
- 利益
- ゲーム
- ジェン
- 取得する
- 与える
- 目標
- 良い
- GPD
- グラフ
- グリーン
- グリッド
- 起こる
- ヘルスケア
- 助けます
- 助け
- ことができます
- ハイ
- 認定条件
- How To
- HTTPS
- イリノイ州
- 画像
- 影響
- 実装する
- 実装
- 重要性
- 重要
- in
- 含ま
- 含めて
- 増える
- を示し
- インダストリアル
- 産業
- 情報
- 洞察
- を取得する必要がある者
- インテリジェンス
- 相互作用的
- 関心
- 興味がある
- IT
- 自体
- 参加した
- 参加
- 旅
- キー
- 知識
- ラボ
- 姓
- 層
- 層
- リーグ
- 学習
- 活用します
- 生活
- 生命科学
- 限定的
- 長い
- 見
- インクルード
- ロサンゼルス
- 損失
- たくさん
- 機械
- 機械学習
- make
- 管理
- マネージャー
- 製造業
- 多くの
- マスターの
- 数学
- メディア
- 方法
- 方法論
- メソッド
- メトリック
- メトリック
- Michael Liebreich
- マイクロサービス
- ML
- モデル
- 修正されました
- 他には?
- モーション
- 国民
- 必要
- 新作
- 次の
- 次の世代
- NFL
- 数
- 入手する
- 攻撃
- ONE
- オプション
- オレンジ
- その他
- 結果
- 屋外で
- 優れた性能
- 外側
- 全体
- パッケージ
- パラメータ
- 部
- パートナー
- 過去
- パフォーマンス
- おそらく
- 画像
- 場所
- プラットフォーム
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- プレイヤー
- プレーヤー
- 再生
- お願いします
- ポイント
- 位置
- ポジション
- 可能
- ポスト
- 予測する
- 予測
- 予測
- 予測
- 予測
- 準備
- 現在
- 主に
- 問題
- 問題
- 手続き
- プロセス
- 処理済み
- 製品
- 演奏曲目
- プロジェクト
- 提供します
- 提供
- 提供
- Python
- ランク
- 珍しい
- Raw
- 現実の世界
- 募集
- レギュラー
- 関連する
- 置き換え
- 研究
- 研究開発
- 責任
- 結果
- return
- 収益
- 堅い
- 堅牢な
- 同じ
- 規模
- 科学
- 科学
- 科学者
- を検索
- シーズン
- 季節
- 秒
- シニア
- 別
- シリーズ
- サービス
- セッションに
- セブン
- いくつかの
- ショート
- 示す
- 側面
- 重要
- 同様の
- 単に
- から
- 小さい
- So
- ソフトウェア
- ソフトウェアエンジニア
- 溶液
- ソリューション
- 解決する
- ソース
- 特別
- 特定の
- スピード
- 支出
- スポーツ
- スポーツ
- 二乗
- 統計
- 統計情報
- 停止
- ストリーミング
- そのような
- テーブル
- チーム
- チーム
- テクニック
- テクノロジー
- 条件
- test
- アプリ環境に合わせて
- したがって、
- 時間
- 時系列
- 〜へ
- あまりに
- 豊富なツール群
- top
- 追跡
- トレーニング
- 訓練された
- トレーニング
- 変換
- 変換
- true
- わかる
- 大学
- シカゴ大学
- つかいます
- 価値観
- 多様
- さまざまな
- 垂直
- ヴァイキング
- 可視化
- 方法
- 富
- ウェブ
- Webサービス
- 重量
- which
- Wikipedia
- 以内
- 勝った
- 仕事
- ワーキング
- 作品
- でしょう
- X
- 年
- You
- あなたの
- ゼファーネット