Hari ini, NFL melanjutkan perjalanan mereka untuk meningkatkan jumlah statistik yang disediakan oleh Platform Statistik Generasi Berikutnya untuk semua 32 tim dan penggemar. Dengan analitik lanjutan yang berasal dari pembelajaran mesin (ML), NFL menciptakan cara baru untuk mengukur sepak bola, dan menyediakan alat yang dibutuhkan penggemar untuk meningkatkan pengetahuan mereka tentang sepak bola. permainan di dalam permainan sepak bola. Untuk musim 2022, NFL bertujuan untuk memanfaatkan data pelacakan pemain dan teknik analitik canggih baru untuk lebih memahami tim khusus.
Tujuan dari proyek ini adalah untuk memprediksi berapa yard yang akan diperoleh oleh pemain yang kembali pada permainan punt atau kickoff. Salah satu tantangan saat membangun model prediktif untuk punt dan kickoff return adalah ketersediaan peristiwa yang sangat jarang โ seperti touchdown โ yang memiliki kepentingan signifikan dalam dinamika permainan. Distribusi data dengan ekor gemuk adalah umum dalam aplikasi dunia nyata, di mana kejadian langka memiliki dampak signifikan pada kinerja model secara keseluruhan. Menggunakan metode yang kuat untuk memodelkan distribusi secara akurat pada peristiwa ekstrem sangat penting untuk kinerja keseluruhan yang lebih baik.
Dalam posting ini, kami mendemonstrasikan cara menggunakan distribusi Spliced โโBinned-Pareto yang diimplementasikan di GluonTS untuk memodelkan distribusi berekor gemuk dengan kuat.
Kami pertama kali menjelaskan dataset yang digunakan. Selanjutnya, kami menyajikan preprocessing data dan metode transformasi lain yang diterapkan pada dataset. Kami kemudian menjelaskan detail metodologi ML dan prosedur pelatihan model. Akhirnya, kami menyajikan hasil kinerja model.
Dataset
Dalam postingan ini, kami menggunakan dua set data untuk membuat model terpisah untuk punt dan kickoff return. Data pelacakan pemain berisi posisi pemain, arah, akselerasi, dan lainnya (dalam koordinat x,y). Ada sekitar 3,000 dan 4,000 permainan dari empat musim NFL (2018-2021) untuk permainan punt dan kickoff. Selain itu, ada sangat sedikit touchdown terkait punt dan kickoff dalam kumpulan dataโmasing-masing hanya 0.23% dan 0.8%. Distribusi data untuk punt dan kickoff berbeda. Misalnya, distribusi yardage sebenarnya untuk kickoff dan punt serupa tetapi bergeser, seperti yang ditunjukkan pada gambar berikut.
Pemrosesan awal data dan rekayasa fitur
Pertama, data pelacakan difilter hanya untuk data yang terkait dengan punt dan kickoff return. Data pemain digunakan untuk memperoleh fitur untuk pengembangan model:
- X โ Posisi pemain di sepanjang sumbu panjang lapangan
- Y โ Posisi pemain di sepanjang sumbu pendek lapangan
- S โ Kecepatan dalam yard/detik; diganti dengan Dis*10 agar lebih akurat (Dis adalah jarak dalam 0.1 detik terakhir)
- Dir โ Sudut gerak pemain (derajat)
Dari data sebelumnya, setiap permainan diubah menjadi data 10X11X14 dengan 10 pemain ofensif (tidak termasuk pembawa bola), 11 pemain bertahan, dan 14 fitur turunan:
- sX โ x kecepatan pemain
- sY โ y kecepatan pemain
- s โ Kecepatan pemain
- aX โ x akselerasi pemain
- aY โ y akselerasi pemain
- relX โ x jarak pemain relatif terhadap pembawa bola
- mengandalkan โ y jarak pemain relatif terhadap pembawa bola
- relSx โ x kecepatan pemain relatif terhadap pembawa bola
- relSy โ y kecepatan pemain relatif terhadap pembawa bola
- relDist โ Jarak Euclidean pemain relatif terhadap pembawa bola
- oppX โ x jarak pemain penyerang relatif terhadap pemain bertahan
- oppY โ y jarak pemain penyerang relatif terhadap pemain bertahan
- oppSx โx kecepatan pemain penyerang relatif terhadap pemain bertahan
- oppSy โ y kecepatan pemain penyerang relatif terhadap pemain bertahan
Untuk menambah data dan memperhitungkan posisi kanan dan kiri, nilai posisi X dan Y juga dicerminkan untuk memperhitungkan posisi bidang kanan dan kiri. Preprocessing data dan rekayasa fitur diadaptasi dari pemenang Mangkuk Data Besar NFL kompetisi di Kaggle.
Metodologi ML dan pelatihan model
Karena kami tertarik pada semua kemungkinan hasil dari permainan, termasuk kemungkinan touchdown, kami tidak bisa begitu saja memprediksi rata-rata yard yang diperoleh sebagai masalah regresi. Kita perlu memprediksi distribusi probabilitas penuh dari semua keuntungan yard yang mungkin, jadi kita membingkai masalah sebagai prediksi probabilistik.
Salah satu cara untuk menerapkan prediksi probabilistik adalah dengan menetapkan pekarangan yang diperoleh ke beberapa kotak (seperti kurang dari 0, dari 0โ1, dari 1โ2, โฆ, dari 14โ15, lebih dari 15) dan memprediksi kotak tersebut sebagai klasifikasi masalah. Sisi negatif dari pendekatan ini adalah kami ingin bin kecil memiliki gambaran distribusi definisi tinggi, tetapi bin kecil berarti lebih sedikit titik data per bin dan distribusi kami, terutama bagian ekor, mungkin diestimasi dengan buruk dan tidak teratur.
Cara lain untuk mengimplementasikan prediksi probabilistik adalah memodelkan keluaran sebagai distribusi probabilitas kontinu dengan sejumlah parameter terbatas (misalnya, distribusi Gaussian atau Gamma) dan memprediksi parameternya. Pendekatan ini memberikan definisi yang sangat tinggi dan gambaran yang teratur tentang distribusi, tetapi terlalu kaku untuk menyesuaikan dengan distribusi sebenarnya dari pekarangan yang diperoleh, yaitu multi-modal dan berekor berat.
Untuk mendapatkan yang terbaik dari kedua metode tersebut, kami menggunakan Distribusi Binned-Pareto yang disambung (SBP), yang memiliki tempat sampah untuk pusat distribusi di mana banyak data tersedia, dan Distribusi Pareto umum (GPD) di kedua ujungnya, di mana peristiwa langka namun penting dapat terjadi, seperti touchdown. GPD memiliki dua parameter: satu untuk skala dan satu untuk berat ekor, seperti yang terlihat pada grafik berikut (sumber: Wikipedia).
Dengan menyambungkan GPD dengan distribusi binned (lihat grafik kiri berikut) di kedua sisi, kami memperoleh SBP berikut di sebelah kanan. Ambang bawah dan atas tempat penyambungan dilakukan adalah hyperparameter.
Sebagai dasar, kami menggunakan model yang memenangkan kami Mangkuk Data Besar NFL kompetisi di Kaggle. Model ini menggunakan lapisan CNN untuk mengekstrak fitur dari data yang disiapkan, dan memprediksi hasilnya sebagai masalah klasifikasi โ1 yard per binโ. Untuk model kami, kami menyimpan lapisan ekstraksi fitur dari garis dasar dan hanya memodifikasi lapisan terakhir untuk menghasilkan parameter SBP alih-alih probabilitas untuk setiap kotak, seperti yang ditunjukkan pada gambar berikut (gambar diedit dari pos Solusi tempat pertama The Zoo).
Kami menggunakan distribusi SBP yang disediakan oleh GluonTS. GluonTS adalah paket Python untuk pemodelan deret waktu probabilistik, tetapi distribusi SBP tidak spesifik untuk deret waktu, dan kami dapat menggunakannya kembali untuk regresi. Untuk informasi lebih lanjut tentang cara menggunakan GluonTS SBP, lihat demo berikut buku catatan.
Model dilatih dan divalidasi silang pada musim 2018, 2019, dan 2020 serta diuji pada musim 2021. Untuk menghindari kebocoran selama validasi silang, kami mengelompokkan semua permainan dari game yang sama ke dalam lipatan yang sama.
Untuk evaluasi, kami menyimpan metrik yang digunakan dalam kompetisi Kaggle, yaitu skor probabilitas peringkat berkelanjutan (CRPS), yang dapat dilihat sebagai alternatif dari kemungkinan log yang lebih kuat terhadap outlier. Kami juga menggunakan Koefisien korelasi Pearson dan RMSE sebagai metrik akurasi umum dan dapat ditafsirkan. Selanjutnya, kami melihat probabilitas touchdown dan plot probabilitas untuk mengevaluasi kalibrasi.
Model dilatih tentang kerugian CRPS menggunakan Rata-rata Berat Stokastik dan berhenti lebih awal.
Untuk mengatasi ketidakteraturan bagian bin dari distribusi keluaran, kami menggunakan dua teknik:
- Penalti kelancaran sebanding dengan selisih kuadrat antara dua kotak berurutan
- Menyimpulkan model yang dilatih selama validasi silang
Hasil kinerja model
Untuk setiap kumpulan data, kami melakukan pencarian kisi pada opsi berikut:
- Model probabilistik
- Baseline adalah satu probabilitas per yard
- SBP adalah satu probabilitas per yard di tengah, SBP umum di bagian belakang
- Perataan distribusi
- Tanpa perataan (penalti kehalusan = 0)
- Penalti kelancaran = 5
- Penalti kelancaran = 10
- Pelatihan dan prosedur inferensi
- 10 lipatan validasi silang dan inferensi ansambel (k10)
- Training on train dan data validasi untuk 10 epoch atau 20 epoch
Kemudian kami melihat metrik untuk lima model teratas yang diurutkan berdasarkan CRPS (lebih rendah lebih baik).
Untuk data awal, model SBP sedikit berkinerja lebih tinggi dalam hal CRPS tetapi yang lebih penting model ini memperkirakan probabilitas touchdown dengan lebih baik (probabilitas sebenarnya adalah 0.80% dalam set pengujian). Kita lihat bahwa model terbaik menggunakan 10 folds ensembling (k10) dan tanpa smoothness penalty, seperti yang ditunjukkan pada tabel berikut.
Pelatihan | Model | Kelancaran | CRPS | RMSE | % CORR | P(sentuhan)% |
k10 | SBP | 0 | 4.071 | 9.641 | 47.15 | 0.78 |
k10 | Dasar | 0 | 4.074 | 9.62 | 47.585 | 0.306 |
k10 | Dasar | 5 | 4.075 | 9.626 | 47.43 | 0.274 |
k10 | SBP | 5 | 4.079 | 9.656 | 46.977 | 0.682 |
k10 | Dasar | 10 | 4.08 | 9.621 | 47.519 | 0.265 |
Plot berikut dari frekuensi yang diamati dan probabilitas yang diprediksi menunjukkan kalibrasi yang baik dari model terbaik kami, dengan RMSE 0.27 antara kedua distribusi. Perhatikan kejadian berukuran yard tinggi (misalnya, 100) yang terjadi di ujung distribusi empiris yang sebenarnya (biru), yang probabilitasnya lebih dapat ditangkap oleh SBP daripada metode garis dasar.
Untuk data punt, baseline mengungguli SBP, mungkin karena ekor berukuran yard ekstrim memiliki realisasi yang lebih sedikit. Oleh karena itu, sebaiknya lakukan trade-off untuk menangkap modalitas antara puncak 0โ10 yard; dan bertentangan dengan data awal, model terbaik menggunakan penalti kelancaran. Tabel berikut merangkum temuan kami.
Pelatihan | Model | Kelancaran | CRPS | RMSE | % CORR | P(sentuhan)% |
k10 | Dasar | 5 | 3.961 | 8.313 | 35.227 | 0.547 |
k10 | Dasar | 0 | 3.972 | 8.346 | 34.227 | 0.579 |
k10 | Dasar | 10 | 3.978 | 8.351 | 34.079 | 0.555 |
k10 | SBP | 5 | 3.981 | 8.342 | 34.971 | 0.723 |
k10 | SBP | 0 | 3.991 | 8.378 | 33.437 | 0.677 |
Plot berikut dari frekuensi yang diamati (berwarna biru) dan probabilitas yang diprediksi untuk dua model punt terbaik menunjukkan bahwa model yang tidak dihaluskan (berwarna oranye) dikalibrasi sedikit lebih baik daripada model yang dihaluskan (berwarna hijau) dan mungkin merupakan pilihan yang lebih baik secara keseluruhan.
Kesimpulan
Dalam postingan ini, kami menunjukkan cara membangun model prediktif dengan distribusi data berekor gemuk. Kami menggunakan distribusi Spliced โโBinned-Pareto, yang diimplementasikan di GluonTS, yang dapat dengan kuat memodelkan distribusi berekor gemuk tersebut. Kami menggunakan teknik ini untuk membuat model pengembalian punt dan kickoff. Kami dapat menerapkan solusi ini untuk kasus penggunaan serupa di mana hanya ada sedikit peristiwa dalam data, tetapi peristiwa tersebut memiliki dampak yang signifikan terhadap kinerja model secara keseluruhan.
Jika Anda membutuhkan bantuan untuk mempercepat penggunaan ML di produk dan layanan Anda, harap hubungi Lab Solusi Amazon ML program.
Tentang Penulis
Tesfagabir Meharizghi adalah Ilmuwan Data di Lab Solusi Amazon ML di mana dia membantu pelanggan AWS di berbagai industri seperti kesehatan dan ilmu kehidupan, manufaktur, otomotif, serta olahraga dan media, mempercepat penggunaan pembelajaran mesin dan layanan cloud AWS untuk mengatasi tantangan bisnis mereka.
Marc van Oudheusden adalah Ilmuwan Data Senior dengan tim Amazon ML Solutions Lab di Amazon Web Services. Dia bekerja dengan pelanggan AWS untuk memecahkan masalah bisnis dengan kecerdasan buatan dan pembelajaran mesin. Di luar pekerjaan Anda mungkin menemukannya di pantai, bermain dengan anak-anaknya, berselancar atau bermain layang-layang.
Pan Pan Xu adalah Ilmuwan dan Manajer Terapan Senior dengan Amazon ML Solutions Lab di AWS. Dia sedang mengerjakan penelitian dan pengembangan algoritme Pembelajaran Mesin untuk aplikasi pelanggan berdampak tinggi di berbagai vertikal industri untuk mempercepat adopsi AI dan cloud mereka. Minat penelitiannya mencakup interpretasi model, analisis kausal, AI manusia dalam lingkaran, dan visualisasi data interaktif.
Kyeong Hoon (Jonathan) Jung adalah insinyur perangkat lunak senior di National Football League. Dia telah bersama tim Next Gen Stats selama tujuh tahun terakhir membantu membangun platform mulai dari streaming data mentah, membangun layanan mikro untuk memproses data, hingga membangun API yang memaparkan data yang diproses. Dia telah berkolaborasi dengan Lab Solusi Pembelajaran Mesin Amazon dalam menyediakan data bersih untuk mereka gunakan serta memberikan pengetahuan domain tentang data itu sendiri. Di luar pekerjaan, dia menikmati bersepeda di Los Angeles dan hiking di Sierras.
Michael Chi adalah Senior Director of Technology yang mengawasi Next Gen Stats dan Data Engineering di National Football League. Dia memiliki gelar di bidang Matematika dan Ilmu Komputer dari University of Illinois di Urbana Champaign. Michael pertama kali bergabung dengan NFL pada tahun 2007 dan terutama berfokus pada teknologi dan platform untuk statistik sepak bola. Di waktu luangnya, ia menikmati menghabiskan waktu bersama keluarganya di luar ruangan.
Mike Band adalah Manajer Senior Riset dan Analitik untuk Statistik Generasi Berikutnya di National Football League. Sejak bergabung dengan tim pada tahun 2018, dia bertanggung jawab atas ide, pengembangan, dan komunikasi statistik dan wawasan utama yang diperoleh dari data pelacakan pemain untuk penggemar, mitra penyiaran NFL, dan 32 klub. Mike membawa banyak pengetahuan dan pengalaman ke tim dengan gelar master dalam analitik dari University of Chicago, gelar sarjana dalam manajemen olahraga dari University of Florida, dan pengalaman di departemen kepanduan Minnesota Vikings dan departemen perekrutan dari Florida Gator Football.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/predict-football-punt-and-kickoff-return-yards-with-fat-tailed-distribution-using-gluonts/
- 000
- 1
- 10
- 100
- 11
- 2018
- 2019
- 2020
- 2021
- 2022
- 7
- a
- Sanggup
- Tentang Kami
- mempercepat
- mempercepat
- Akun
- ketepatan
- tepat
- akurat
- di seluruh
- tambahan
- Adopsi
- maju
- AI
- algoritma
- Semua
- alternatif
- Amazon
- Pembelajaran Mesin Amazon
- Lab Solusi Amazon ML
- Amazon Web Services
- analisis
- analisis
- dan
- Angeles
- aplikasi
- terapan
- Mendaftar
- pendekatan
- arsitektur
- sekitar
- buatan
- kecerdasan buatan
- Kecerdasan Buatan dan Pembelajaran Mesin
- otomotif
- tersedianya
- tersedia
- rata-rata
- AWS
- Sumbu
- bola
- Dasar
- Pantai
- karena
- TERBAIK
- Lebih baik
- antara
- Besar
- Big data
- Biru
- Kedua sisi
- Membawa
- menyiarkan
- membangun
- Bangunan
- bisnis
- menangkap
- kasus
- pusat
- tantangan
- Chicago
- anak-anak
- pilihan
- klasifikasi
- awan
- adopsi cloud
- layanan cloud
- klub
- CNN
- berkolaborasi
- Umum
- Komunikasi
- kompetisi
- komputer
- Komputer Ilmu
- berturut-turut
- kontak
- mengandung
- terus-menerus
- kontinu
- kebalikan
- Korelasi
- membuat
- sangat penting
- pelanggan
- pelanggan
- data
- titik data
- ilmuwan data
- visualisasi data
- kumpulan data
- transaksi
- Pembela
- Pertahanan
- Derajat
- mendemonstrasikan
- Departemen
- Berasal
- menggambarkan
- rincian
- Pengembangan
- perbedaan
- berbeda
- arah
- Kepala
- jarak
- distribusi
- distribusi
- domain
- Kelemahan
- selama
- dinamika
- setiap
- Awal
- berakhir
- insinyur
- Teknik
- zaman
- terutama
- diperkirakan
- perkiraan
- mengevaluasi
- evaluasi
- peristiwa
- contoh
- tidak termasuk
- pengalaman
- Menjelaskan
- ekstrak
- ekstrim
- keluarga
- penggemar
- Lemak
- Fitur
- Fitur
- beberapa
- bidang
- Angka
- Akhirnya
- Menemukan
- Pertama
- cocok
- florida
- terfokus
- berikut
- sepak bola
- dari
- penuh
- Selanjutnya
- Mendapatkan
- Keuntungan
- permainan
- Gen
- Umum
- mendapatkan
- memberikan
- tujuan
- baik
- GPD
- grafik
- Hijau
- kisi
- terjadi
- kesehatan
- membantu
- membantu
- membantu
- High
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- Illinois
- gambar
- Dampak
- melaksanakan
- diimplementasikan
- pentingnya
- penting
- in
- termasuk
- Termasuk
- Meningkatkan
- menunjukkan
- industri
- industri
- informasi
- wawasan
- sebagai gantinya
- Intelijen
- interaktif
- bunga
- tertarik
- IT
- Diri
- bergabung
- bergabung
- perjalanan
- kunci
- pengetahuan
- laboratorium
- Terakhir
- lapisan
- lapisan
- Liga
- pengetahuan
- Leverage
- Hidup
- Biologi
- Terbatas
- Panjang
- tampak
- itu
- Los Angeles
- lepas
- Lot
- mesin
- Mesin belajar
- membuat
- pengelolaan
- manajer
- pabrik
- banyak
- tuan
- matematika
- Media
- metode
- Metodologi
- metode
- metrik
- Metrik
- Michael
- microservices
- ML
- model
- model
- dimodifikasi
- lebih
- gerakan
- nasional
- Perlu
- New
- berikutnya
- gen selanjutnya
- NFL
- jumlah
- memperoleh
- serangan
- ONE
- Opsi
- Jeruk
- Lainnya
- Hasil
- di luar rumah
- Mengungguli
- di luar
- secara keseluruhan
- paket
- parameter
- bagian
- rekan
- lalu
- prestasi
- mungkin
- gambar
- Tempat
- Platform
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- Bermain
- pemain
- pemain
- bermain
- silahkan
- poin
- posisi
- posisi
- mungkin
- Pos
- meramalkan
- diprediksi
- ramalan
- Prediksi
- Prediksi
- siap
- menyajikan
- terutama
- Masalah
- masalah
- Prosedur
- proses
- Diproses
- Produk
- program
- proyek
- memberikan
- disediakan
- menyediakan
- Ular sanca
- peringkat
- LANGKA
- Mentah
- dunia nyata
- merekrut
- reguler
- terkait
- diganti
- penelitian
- penelitian dan pengembangan
- tanggung jawab
- Hasil
- kembali
- Pengembalian
- kaku
- kuat
- sama
- Skala
- Ilmu
- ILMU PENGETAHUAN
- ilmuwan
- Pencarian
- Musim
- musim
- detik
- senior
- terpisah
- Seri
- Layanan
- set
- tujuh
- beberapa
- Pendek
- ditunjukkan
- Sisi
- penting
- mirip
- hanya
- sejak
- kecil
- So
- Perangkat lunak
- Software Engineer
- larutan
- Solusi
- MEMECAHKAN
- sumber
- khusus
- tertentu
- kecepatan
- Pengeluaran
- Olahraga
- Olahraga
- Kuadrat
- statistika
- statistik
- henti
- Streaming
- seperti itu
- tabel
- tim
- tim
- teknik
- Teknologi
- istilah
- uji
- Grafik
- mereka
- karena itu
- waktu
- Seri waktu
- untuk
- terlalu
- alat
- puncak
- Pelacakan
- Pelatihan VE
- terlatih
- Pelatihan
- Transformasi
- berubah
- benar
- memahami
- universitas
- University of Chicago
- menggunakan
- pengesahan
- Nilai - Nilai
- variasi
- berbagai
- vertikal
- Viking
- visualisasi
- cara
- Kekayaan
- jaringan
- layanan web
- berat
- yang
- Wikipedia
- dalam
- Won
- Kerja
- kerja
- bekerja
- akan
- X
- tahun
- Kamu
- Anda
- zephyrnet.dll