Memprediksi Punt Sepak Bola Dan Kickoff Return Yards Dengan Distribusi Fat-tailed Menggunakan GluonTS

Diterbitkan Ulang Oleh Plato

Followers: 0

Hari ini, NFL melanjutkan perjalanan mereka untuk meningkatkan jumlah statistik yang disediakan oleh Platform Statistik Generasi Berikutnya untuk semua 32 tim dan penggemar. Dengan analitik lanjutan yang berasal dari pembelajaran mesin (ML), NFL menciptakan cara baru untuk mengukur sepak bola, dan menyediakan alat yang dibutuhkan penggemar untuk meningkatkan pengetahuan mereka tentang sepak bola. permainan di dalam permainan sepak bola. Untuk musim 2022, NFL bertujuan untuk memanfaatkan data pelacakan pemain dan teknik analitik canggih baru untuk lebih memahami tim khusus.

Tujuan dari proyek ini adalah untuk memprediksi berapa yard yang akan diperoleh oleh pemain yang kembali pada permainan punt atau kickoff. Salah satu tantangan saat membangun model prediktif untuk punt dan kickoff return adalah ketersediaan peristiwa yang sangat jarang — seperti touchdown — yang memiliki kepentingan signifikan dalam dinamika permainan. Distribusi data dengan ekor gemuk adalah umum dalam aplikasi dunia nyata, di mana kejadian langka memiliki dampak signifikan pada kinerja model secara keseluruhan. Menggunakan metode yang kuat untuk memodelkan distribusi secara akurat pada peristiwa ekstrem sangat penting untuk kinerja keseluruhan yang lebih baik.

Dalam posting ini, kami mendemonstrasikan cara menggunakan distribusi Spliced Binned-Pareto yang diimplementasikan di GluonTS untuk memodelkan distribusi berekor gemuk dengan kuat.

Kami pertama kali menjelaskan dataset yang digunakan. Selanjutnya, kami menyajikan preprocessing data dan metode transformasi lain yang diterapkan pada dataset. Kami kemudian menjelaskan detail metodologi ML dan prosedur pelatihan model. Akhirnya, kami menyajikan hasil kinerja model.

Dataset

Dalam postingan ini, kami menggunakan dua set data untuk membuat model terpisah untuk punt dan kickoff return. Data pelacakan pemain berisi posisi pemain, arah, akselerasi, dan lainnya (dalam koordinat x,y). Ada sekitar 3,000 dan 4,000 permainan dari empat musim NFL (2018-2021) untuk permainan punt dan kickoff. Selain itu, ada sangat sedikit touchdown terkait punt dan kickoff dalam kumpulan data—masing-masing hanya 0.23% dan 0.8%. Distribusi data untuk punt dan kickoff berbeda. Misalnya, distribusi yardage sebenarnya untuk kickoff dan punt serupa tetapi bergeser, seperti yang ditunjukkan pada gambar berikut.

Distribusi punt dan kickoff return yard

Pemrosesan awal data dan rekayasa fitur

Pertama, data pelacakan difilter hanya untuk data yang terkait dengan punt dan kickoff return. Data pemain digunakan untuk memperoleh fitur untuk pengembangan model:

X – Posisi pemain di sepanjang sumbu panjang lapangan
Y – Posisi pemain di sepanjang sumbu pendek lapangan
S – Kecepatan dalam yard/detik; diganti dengan Dis*10 agar lebih akurat (Dis adalah jarak dalam 0.1 detik terakhir)
Dir – Sudut gerak pemain (derajat)

Dari data sebelumnya, setiap permainan diubah menjadi data 10X11X14 dengan 10 pemain ofensif (tidak termasuk pembawa bola), 11 pemain bertahan, dan 14 fitur turunan:

sX – x kecepatan pemain
sY – y kecepatan pemain
s – Kecepatan pemain
aX – x akselerasi pemain
aY – y akselerasi pemain
relX – x jarak pemain relatif terhadap pembawa bola
mengandalkan – y jarak pemain relatif terhadap pembawa bola
relSx – x kecepatan pemain relatif terhadap pembawa bola
relSy – y kecepatan pemain relatif terhadap pembawa bola
relDist – Jarak Euclidean pemain relatif terhadap pembawa bola
oppX – x jarak pemain penyerang relatif terhadap pemain bertahan
oppY – y jarak pemain penyerang relatif terhadap pemain bertahan
oppSx –x kecepatan pemain penyerang relatif terhadap pemain bertahan
oppSy – y kecepatan pemain penyerang relatif terhadap pemain bertahan

Untuk menambah data dan memperhitungkan posisi kanan dan kiri, nilai posisi X dan Y juga dicerminkan untuk memperhitungkan posisi bidang kanan dan kiri. Preprocessing data dan rekayasa fitur diadaptasi dari pemenang Mangkuk Data Besar NFL kompetisi di Kaggle.

Metodologi ML dan pelatihan model

Karena kami tertarik pada semua kemungkinan hasil dari permainan, termasuk kemungkinan touchdown, kami tidak bisa begitu saja memprediksi rata-rata yard yang diperoleh sebagai masalah regresi. Kita perlu memprediksi distribusi probabilitas penuh dari semua keuntungan yard yang mungkin, jadi kita membingkai masalah sebagai prediksi probabilistik.

Salah satu cara untuk menerapkan prediksi probabilistik adalah dengan menetapkan pekarangan yang diperoleh ke beberapa kotak (seperti kurang dari 0, dari 0–1, dari 1–2, …, dari 14–15, lebih dari 15) dan memprediksi kotak tersebut sebagai klasifikasi masalah. Sisi negatif dari pendekatan ini adalah kami ingin bin kecil memiliki gambaran distribusi definisi tinggi, tetapi bin kecil berarti lebih sedikit titik data per bin dan distribusi kami, terutama bagian ekor, mungkin diestimasi dengan buruk dan tidak teratur.

Cara lain untuk mengimplementasikan prediksi probabilistik adalah memodelkan keluaran sebagai distribusi probabilitas kontinu dengan sejumlah parameter terbatas (misalnya, distribusi Gaussian atau Gamma) dan memprediksi parameternya. Pendekatan ini memberikan definisi yang sangat tinggi dan gambaran yang teratur tentang distribusi, tetapi terlalu kaku untuk menyesuaikan dengan distribusi sebenarnya dari pekarangan yang diperoleh, yaitu multi-modal dan berekor berat.

Untuk mendapatkan yang terbaik dari kedua metode tersebut, kami menggunakan Distribusi Binned-Pareto yang disambung (SBP), yang memiliki tempat sampah untuk pusat distribusi di mana banyak data tersedia, dan Distribusi Pareto umum (GPD) di kedua ujungnya, di mana peristiwa langka namun penting dapat terjadi, seperti touchdown. GPD memiliki dua parameter: satu untuk skala dan satu untuk berat ekor, seperti yang terlihat pada grafik berikut (sumber: Wikipedia).

Dengan menyambungkan GPD dengan distribusi binned (lihat grafik kiri berikut) di kedua sisi, kami memperoleh SBP berikut di sebelah kanan. Ambang bawah dan atas tempat penyambungan dilakukan adalah hyperparameter.

Binned dan distribusi SPB

Sebagai dasar, kami menggunakan model yang memenangkan kami Mangkuk Data Besar NFL kompetisi di Kaggle. Model ini menggunakan lapisan CNN untuk mengekstrak fitur dari data yang disiapkan, dan memprediksi hasilnya sebagai masalah klasifikasi “1 yard per bin”. Untuk model kami, kami menyimpan lapisan ekstraksi fitur dari garis dasar dan hanya memodifikasi lapisan terakhir untuk menghasilkan parameter SBP alih-alih probabilitas untuk setiap kotak, seperti yang ditunjukkan pada gambar berikut (gambar diedit dari pos Solusi tempat pertama The Zoo).

Arsitektur Model

Kami menggunakan distribusi SBP yang disediakan oleh GluonTS. GluonTS adalah paket Python untuk pemodelan deret waktu probabilistik, tetapi distribusi SBP tidak spesifik untuk deret waktu, dan kami dapat menggunakannya kembali untuk regresi. Untuk informasi lebih lanjut tentang cara menggunakan GluonTS SBP, lihat demo berikut buku catatan.

Model dilatih dan divalidasi silang pada musim 2018, 2019, dan 2020 serta diuji pada musim 2021. Untuk menghindari kebocoran selama validasi silang, kami mengelompokkan semua permainan dari game yang sama ke dalam lipatan yang sama.

Untuk evaluasi, kami menyimpan metrik yang digunakan dalam kompetisi Kaggle, yaitu skor probabilitas peringkat berkelanjutan (CRPS), yang dapat dilihat sebagai alternatif dari kemungkinan log yang lebih kuat terhadap outlier. Kami juga menggunakan Koefisien korelasi Pearson dan RMSE sebagai metrik akurasi umum dan dapat ditafsirkan. Selanjutnya, kami melihat probabilitas touchdown dan plot probabilitas untuk mengevaluasi kalibrasi.

Model dilatih tentang kerugian CRPS menggunakan Rata-rata Berat Stokastik dan berhenti lebih awal.

Untuk mengatasi ketidakteraturan bagian bin dari distribusi keluaran, kami menggunakan dua teknik:

Penalti kelancaran sebanding dengan selisih kuadrat antara dua kotak berurutan
Menyimpulkan model yang dilatih selama validasi silang

Hasil kinerja model

Untuk setiap kumpulan data, kami melakukan pencarian kisi pada opsi berikut:

Model probabilistik
- Baseline adalah satu probabilitas per yard
- SBP adalah satu probabilitas per yard di tengah, SBP umum di bagian belakang
Perataan distribusi
- Tanpa perataan (penalti kehalusan = 0)
- Penalti kelancaran = 5
- Penalti kelancaran = 10
Pelatihan dan prosedur inferensi
- 10 lipatan validasi silang dan inferensi ansambel (k10)
- Training on train dan data validasi untuk 10 epoch atau 20 epoch

Kemudian kami melihat metrik untuk lima model teratas yang diurutkan berdasarkan CRPS (lebih rendah lebih baik).

Untuk data awal, model SBP sedikit berkinerja lebih tinggi dalam hal CRPS tetapi yang lebih penting model ini memperkirakan probabilitas touchdown dengan lebih baik (probabilitas sebenarnya adalah 0.80% dalam set pengujian). Kita lihat bahwa model terbaik menggunakan 10 folds ensembling (k10) dan tanpa smoothness penalty, seperti yang ditunjukkan pada tabel berikut.

Pelatihan	Model	Kelancaran	CRPS	RMSE	% CORR	P(sentuhan)%
k10	SBP	0	4.071	9.641	47.15	0.78
k10	Dasar	0	4.074	9.62	47.585	0.306
k10	Dasar	5	4.075	9.626	47.43	0.274
k10	SBP	5	4.079	9.656	46.977	0.682
k10	Dasar	10	4.08	9.621	47.519	0.265

Plot berikut dari frekuensi yang diamati dan probabilitas yang diprediksi menunjukkan kalibrasi yang baik dari model terbaik kami, dengan RMSE 0.27 antara kedua distribusi. Perhatikan kejadian berukuran yard tinggi (misalnya, 100) yang terjadi di ujung distribusi empiris yang sebenarnya (biru), yang probabilitasnya lebih dapat ditangkap oleh SBP daripada metode garis dasar.

Kickoff mengamati frekuensi dan prediksi distribusi probabilitas

Untuk data punt, baseline mengungguli SBP, mungkin karena ekor berukuran yard ekstrim memiliki realisasi yang lebih sedikit. Oleh karena itu, sebaiknya lakukan trade-off untuk menangkap modalitas antara puncak 0–10 yard; dan bertentangan dengan data awal, model terbaik menggunakan penalti kelancaran. Tabel berikut merangkum temuan kami.

Pelatihan	Model	Kelancaran	CRPS	RMSE	% CORR	P(sentuhan)%
k10	Dasar	5	3.961	8.313	35.227	0.547
k10	Dasar	0	3.972	8.346	34.227	0.579
k10	Dasar	10	3.978	8.351	34.079	0.555
k10	SBP	5	3.981	8.342	34.971	0.723
k10	SBP	0	3.991	8.378	33.437	0.677

Plot berikut dari frekuensi yang diamati (berwarna biru) dan probabilitas yang diprediksi untuk dua model punt terbaik menunjukkan bahwa model yang tidak dihaluskan (berwarna oranye) dikalibrasi sedikit lebih baik daripada model yang dihaluskan (berwarna hijau) dan mungkin merupakan pilihan yang lebih baik secara keseluruhan.

Punt probabilitas yang benar dan diprediksi

Kesimpulan

Dalam postingan ini, kami menunjukkan cara membangun model prediktif dengan distribusi data berekor gemuk. Kami menggunakan distribusi Spliced Binned-Pareto, yang diimplementasikan di GluonTS, yang dapat dengan kuat memodelkan distribusi berekor gemuk tersebut. Kami menggunakan teknik ini untuk membuat model pengembalian punt dan kickoff. Kami dapat menerapkan solusi ini untuk kasus penggunaan serupa di mana hanya ada sedikit peristiwa dalam data, tetapi peristiwa tersebut memiliki dampak yang signifikan terhadap kinerja model secara keseluruhan.

Jika Anda membutuhkan bantuan untuk mempercepat penggunaan ML di produk dan layanan Anda, harap hubungi Lab Solusi Amazon ML program.

Tentang Penulis

Memprediksi jarak tendangan dan kickoff sepak bola dengan distribusi ekor gemuk menggunakan GluonTS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Tesfagabir Meharizghi adalah Ilmuwan Data di Lab Solusi Amazon ML di mana dia membantu pelanggan AWS di berbagai industri seperti kesehatan dan ilmu kehidupan, manufaktur, otomotif, serta olahraga dan media, mempercepat penggunaan pembelajaran mesin dan layanan cloud AWS untuk mengatasi tantangan bisnis mereka.

Marc van Oudheusden adalah Ilmuwan Data Senior dengan tim Amazon ML Solutions Lab di Amazon Web Services. Dia bekerja dengan pelanggan AWS untuk memecahkan masalah bisnis dengan kecerdasan buatan dan pembelajaran mesin. Di luar pekerjaan Anda mungkin menemukannya di pantai, bermain dengan anak-anaknya, berselancar atau bermain layang-layang.

Pan Pan Xu adalah Ilmuwan dan Manajer Terapan Senior dengan Amazon ML Solutions Lab di AWS. Dia sedang mengerjakan penelitian dan pengembangan algoritme Pembelajaran Mesin untuk aplikasi pelanggan berdampak tinggi di berbagai vertikal industri untuk mempercepat adopsi AI dan cloud mereka. Minat penelitiannya mencakup interpretasi model, analisis kausal, AI manusia dalam lingkaran, dan visualisasi data interaktif.

Memprediksi jarak tendangan dan kickoff sepak bola dengan distribusi ekor gemuk menggunakan GluonTS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Kyeong Hoon (Jonathan) Jung adalah insinyur perangkat lunak senior di National Football League. Dia telah bersama tim Next Gen Stats selama tujuh tahun terakhir membantu membangun platform mulai dari streaming data mentah, membangun layanan mikro untuk memproses data, hingga membangun API yang memaparkan data yang diproses. Dia telah berkolaborasi dengan Lab Solusi Pembelajaran Mesin Amazon dalam menyediakan data bersih untuk mereka gunakan serta memberikan pengetahuan domain tentang data itu sendiri. Di luar pekerjaan, dia menikmati bersepeda di Los Angeles dan hiking di Sierras.

Memprediksi jarak tendangan dan kickoff sepak bola dengan distribusi ekor gemuk menggunakan GluonTS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Michael Chi adalah Senior Director of Technology yang mengawasi Next Gen Stats dan Data Engineering di National Football League. Dia memiliki gelar di bidang Matematika dan Ilmu Komputer dari University of Illinois di Urbana Champaign. Michael pertama kali bergabung dengan NFL pada tahun 2007 dan terutama berfokus pada teknologi dan platform untuk statistik sepak bola. Di waktu luangnya, ia menikmati menghabiskan waktu bersama keluarganya di luar ruangan.

Mike Band adalah Manajer Senior Riset dan Analitik untuk Statistik Generasi Berikutnya di National Football League. Sejak bergabung dengan tim pada tahun 2018, dia bertanggung jawab atas ide, pengembangan, dan komunikasi statistik dan wawasan utama yang diperoleh dari data pelacakan pemain untuk penggemar, mitra penyiaran NFL, dan 32 klub. Mike membawa banyak pengetahuan dan pengalaman ke tim dengan gelar master dalam analitik dari University of Chicago, gelar sarjana dalam manajemen olahraga dari University of Florida, dan pengalaman di departemen kepanduan Minnesota Vikings dan departemen perekrutan dari Florida Gator Football.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/

Stempel Waktu: Februari 2, 2023

Stempel Waktu: Juni 8, 2023

Diterbitkan Ulang Oleh Plato

Siapkan alokasi biaya tingkat perusahaan untuk lingkungan dan beban kerja ML menggunakan penandaan sumber daya di Amazon SageMaker

Menafsirkan input penelepon menggunakan jenis slot tata bahasa di Amazon Lex

Kelola pengembangan pembelajaran mesin menggunakan ruang bersama di SageMaker Studio untuk kolaborasi waktu nyata

Pendekatan aman terhadap AI generatif dengan AWS | Layanan Web Amazon

Gunakan Amazon SageMaker Data Wrangler di Amazon SageMaker Studio dengan konfigurasi siklus hidup default

Terapkan dan kelola alur pembelajaran mesin dengan Terraform menggunakan Amazon SageMaker

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun