Secara Otomatis Menghasilkan Metrik Evaluasi Model Menggunakan Laporan Kualitas Model Autopilot SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Autopilot Amazon SageMaker membantu Anda menyelesaikan alur kerja machine learning (ML) ujung ke ujung dengan mengotomatiskan langkah-langkah rekayasa fitur, pelatihan, penyetelan, dan penerapan model ML untuk inferensi. Anda memberikan SageMaker Autopilot dengan kumpulan data tabular dan atribut target untuk diprediksi. Kemudian, SageMaker Autopilot secara otomatis menjelajahi data, kereta, nada, peringkat, dan menemukan model terbaik Anda. Terakhir, Anda dapat menerapkan model ini ke produksi untuk inferensi dengan satu klik.

Apa yang baru?

Fitur yang baru diluncurkan, Laporan Kualitas Model Autopilot SageMaker, sekarang melaporkan metrik model Anda untuk memberikan visibilitas yang lebih baik ke kinerja model Anda untuk masalah regresi dan klasifikasi. Anda dapat memanfaatkan metrik ini untuk mengumpulkan lebih banyak wawasan tentang model terbaik di papan peringkat Model.

Metrik dan laporan ini yang tersedia di tab "Kinerja" baru di bawah "Detail model" dari model terbaik mencakup matriks kebingungan, area di bawah kurva karakteristik pengoperasian penerima (AUC-ROC) dan area di bawah kurva presisi-recall (AUC-PR). Metrik ini membantu Anda memahami positif palsu/negatif palsu (FP/FN), tradeoff antara true positive (TP) dan false positive (FP), serta tradeoff antara presisi dan recall untuk menilai karakteristik kinerja model terbaik.

Menjalankan eksperimen SageMaker Autopilot

Kumpulan Data

Kami menggunakan Kumpulan data pemasaran bank UCI untuk mendemonstrasikan Laporan Kualitas Model Autopilot SageMaker. Data ini berisi atribut nasabah, seperti usia, jenis pekerjaan, status perkawinan, dan lain-lain yang akan kami gunakan untuk memprediksi apakah nasabah akan membuka rekening di bank. Kumpulan data mengacu pada akun ini sebagai deposito berjangka. Ini membuat kasus kami menjadi masalah klasifikasi biner – prediksinya akan menjadi “ya” atau “tidak”. SageMaker Autopilot akan menghasilkan beberapa model atas nama kami untuk memprediksi pelanggan potensial dengan baik. Kemudian, kita akan memeriksa Laporan Kualitas Model untuk Autopilot SageMaker model terbaik.

Prasyarat

Untuk memulai eksperimen SageMaker Autopilot, Anda harus terlebih dahulu menempatkan data Anda di Layanan Penyimpanan Sederhana Amazon (Amazon S3) ember. Tentukan bucket dan awalan yang ingin Anda gunakan untuk pelatihan. Pastikan ember berada di Wilayah yang sama dengan eksperimen SageMaker Autopilot. Anda juga harus memastikan bahwa peran Autopilot Identity and Access Management (IAM) memiliki izin untuk mengakses data di Amazon S3.

Membuat percobaan

Anda memiliki beberapa opsi untuk membuat eksperimen SageMaker Autopilot di SageMaker Studio. Dengan membuka peluncur baru, Anda mungkin dapat mengakses SageMaker Autopilot secara langsung. Jika tidak, Anda dapat memilih ikon sumber daya SageMaker di sisi kiri. Selanjutnya, Anda dapat memilih Eksperimen dan percobaan dari menu drop-down.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Beri nama eksperimen Anda.
Hubungkan ke sumber data Anda dengan memilih bucket Amazon S3 dan nama file.
Pilih lokasi data keluaran di Amazon S3.
Pilih kolom target untuk kumpulan data Anda. Dalam hal ini, kami menargetkan kolom “y” untuk menunjukkan ya/tidak.
Secara opsional, berikan nama titik akhir jika Anda ingin SageMaker Autopilot secara otomatis menerapkan titik akhir model.
Biarkan semua pengaturan lanjutan lainnya sebagai default, dan pilih Buat Eksperimen.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Setelah eksperimen selesai, Anda dapat melihat hasilnya di SageMaker Studio. SageMaker Autopilot akan menghadirkan model terbaik di antara berbagai model yang dilatihnya. Anda dapat melihat detail dan hasil untuk uji coba yang berbeda, tetapi kami akan menggunakan model terbaik untuk mendemonstrasikan penggunaan Laporan Kualitas Model.

Pilih modelnya, dan klik kanan untuk Buka di detail model.
Dalam detail model, pilih Performance tab. Ini menunjukkan metrik model melalui visualisasi dan plot.
Bawah Performance, pilih Unduh Laporan Kinerja sebagai PDF.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Menafsirkan Laporan Kualitas Model Autopilot SageMaker

Laporan Kualitas Model merangkum pekerjaan SageMaker Autopilot dan detail model. Kami akan fokus pada format PDF laporan, tetapi Anda juga dapat mengakses hasilnya sebagai JSON. Karena SageMaker Autopilot menentukan kumpulan data kami sebagai masalah klasifikasi biner, SageMaker Autopilot bertujuan untuk memaksimalkan metrik kualitas F1 untuk menemukan model terbaik. SageMaker Autopilot memilih ini secara default. Namun, ada fleksibilitas untuk memilih metrik objektif lainnya, seperti akurasi dan AUC. Skor F1 model kami adalah 0.61. Untuk menafsirkan skor F1, ada baiknya untuk terlebih dahulu memahami matriks kebingungan, yang dijelaskan oleh Laporan Kualitas Model dalam PDF yang dihasilkan.

Matriks Kebingungan

Matriks kebingungan membantu memvisualisasikan kinerja model dengan membandingkan kelas dan label yang berbeda. Eksperimen Autopilot SageMaker membuat matriks kebingungan yang menunjukkan label sebenarnya sebagai baris, dan label berpredikat sebagai kolom dalam Laporan Kualitas Model. Kotak kiri atas menunjukkan pelanggan yang tidak membuka rekening di bank yang diprediksi dengan benar sebagai 'tidak' oleh model. Ini adalah negatif yang sebenarnya (TN). Kotak kanan bawah menunjukkan pelanggan yang membuka rekening di bank yang diprediksi dengan benar sebagai 'ya' oleh model. Ini adalah positif sejati (PT).

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pojok kiri bawah menunjukkan jumlah negatif palsu (FN). Model memperkirakan bahwa pelanggan tidak akan membuka rekening, tetapi pelanggan melakukannya. Pojok kanan atas menunjukkan jumlah positif palsu (FP). Model memprediksi bahwa pelanggan akan membuka akun, tetapi pelanggan melakukannya tidak benar-benar melakukannya.

Metrik Laporan Kualitas Model

Laporan Kualitas Model menjelaskan cara menghitung tingkat positif palsu (FPR) dan tingkat positif benar (TPR).

Recall atau False Positive Rate (FPR) mengukur proporsi negatif aktual yang diprediksi secara salah sebagai pembukaan akun (positif). Rentangnya adalah 0 hingga 1, dan nilai yang lebih kecil menunjukkan akurasi prediksi yang lebih baik.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Perhatikan bahwa FPR juga dinyatakan sebagai 1-Kekhususan, di mana Spesifisitas atau True Negative Rate (TNR) adalah proporsi TN yang diidentifikasi dengan benar sebagai tidak membuka rekening (negatif).

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Recall/Sensitivitas/True Positive Rate (TPR) mengukur fraksi positif aktual yang diprediksi sebagai pembukaan akun. Rentangnya juga 0 hingga 1, dan nilai yang lebih besar menunjukkan akurasi prediksi yang lebih baik. Ini juga dikenal sebagai Recall/Sensitivity. Ukuran ini mengungkapkan kemampuan untuk menemukan semua instance yang relevan dalam kumpulan data.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Ketelitian mengukur fraksi positif aktual yang diprediksi sebagai positif dari semua yang diprediksi sebagai positif. Rentangnya adalah 0 hingga 1, dan nilai yang lebih besar menunjukkan akurasi yang lebih baik. Presisi mengungkapkan proporsi titik data yang menurut model kami relevan dan yang sebenarnya relevan. Presisi adalah ukuran yang baik untuk dipertimbangkan, terutama ketika biaya FP tinggi – misalnya dengan deteksi spam email.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Model kami menunjukkan presisi 0.53 dan penarikan 0.72.

Skor F1 menunjukkan metrik target kami, yang merupakan rata-rata harmonik presisi dan ingatan. Karena kumpulan data kami tidak seimbang dalam mendukung banyak prediksi 'tidak', F1 memperhitungkan FP dan FN untuk memberikan bobot yang sama pada presisi dan ingatan.

Laporan menjelaskan cara menafsirkan metrik ini. Ini dapat membantu jika Anda tidak terbiasa dengan istilah-istilah ini. Dalam contoh kita, presisi dan ingatan adalah metrik penting untuk masalah klasifikasi biner, karena digunakan untuk menghitung skor F1. Laporan tersebut menjelaskan bahwa skor F1 dapat bervariasi antara 0 dan 1. Performa terbaik akan mendapat skor 1, sedangkan 0 akan menunjukkan yang terburuk. Ingatlah bahwa skor F1 model kami adalah 0.61.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Skor Fβ adalah rata-rata harmonik tertimbang presisi dan recall. Selain itu, skor F1 sama dengan Fβ dengan =1. Laporan tersebut memberikan Skor Fβ dari pengklasifikasi, di mana mengambil 0.5, 1, dan 2.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Tabel Metrik

Bergantung pada masalahnya, Anda mungkin menemukan bahwa SageMaker Autopilot memaksimalkan metrik lain, seperti akurasi, untuk masalah klasifikasi multi-kelas. Terlepas dari jenis masalahnya, Laporan Kualitas Model menghasilkan tabel yang merangkum metrik model Anda yang tersedia baik sebaris maupun dalam laporan PDF. Anda dapat mempelajari lebih lanjut tentang tabel metrik di dokumentasi.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pengklasifikasi konstan terbaik – pengklasifikasi yang berfungsi sebagai dasar sederhana untuk dibandingkan dengan pengklasifikasi lain yang lebih kompleks – selalu memprediksi label mayoritas konstan yang disediakan oleh pengguna. Dalam kasus kami, model 'konstan' akan memprediksi 'tidak', karena itu adalah kelas yang paling sering dan dianggap sebagai label negatif. Metrik untuk model classifier terlatih (seperti f1, f2, atau recall) dapat dibandingkan dengan classifier konstan, yaitu baseline. Ini memastikan bahwa model yang dilatih berkinerja lebih baik daripada pengklasifikasi konstan. Skor Fβ (f0_5, f1, dan f2, di mana masing-masing mengambil nilai 0.5, 1, dan 2) adalah rata-rata harmonik tertimbang dari presisi dan daya ingat. Ini mencapai nilai optimalnya pada 1 dan nilai terburuknya pada 0.

Dalam kasus kami, pengklasifikasi konstan terbaik selalu memprediksi 'tidak'. Oleh karena itu, akurasinya tinggi pada 0.89, tetapi nilai recall, precision, dan Fβ adalah 0. Jika dataset seimbang sempurna di mana tidak ada kelas mayoritas atau minoritas tunggal, kita akan melihat kemungkinan yang jauh lebih menarik untuk presisi, recall, dan skor Fβ dari pengklasifikasi konstan.

Selanjutnya, Anda dapat melihat hasil ini dalam format JSON seperti yang ditunjukkan pada contoh berikut. Anda dapat mengakses file PDF dan JSON melalui UI, serta SDK Python Amazon SageMaker menggunakan elemen S3OutputPath di OutputDataConfig struktur di BuatOtomatisMLJob/JelaskanAutoMLJob Tanggapan API.

{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….

ROC dan AUC

Bergantung pada jenis masalah, Anda mungkin memiliki ambang batas yang berbeda untuk apa yang dapat diterima sebagai FPR. Misalnya, jika Anda mencoba untuk memprediksi apakah pelanggan akan membuka akun, maka mungkin lebih dapat diterima oleh bisnis untuk memiliki tingkat FP yang lebih tinggi. Akan lebih berisiko untuk melewatkan penawaran kepada pelanggan yang secara salah diprediksi 'tidak', dibandingkan dengan menawarkan pelanggan yang diprediksi secara salah 'ya'. Mengubah ambang batas ini untuk menghasilkan FPR yang berbeda mengharuskan Anda membuat matriks kebingungan baru.

Algoritma klasifikasi mengembalikan nilai kontinu yang dikenal sebagai probabilitas prediksi. Probabilitas ini harus diubah menjadi nilai biner (untuk klasifikasi biner). Dalam masalah klasifikasi biner, ambang (atau ambang keputusan) adalah nilai yang mendikotomikan probabilitas menjadi keputusan biner sederhana. Untuk probabilitas yang diproyeksikan dinormalisasi dalam kisaran 0 hingga 1, ambang batas diatur ke 0.5 secara default.

Untuk model klasifikasi biner, metrik evaluasi yang berguna adalah area di bawah kurva Receiver Operating Characteristic (ROC). Laporan Kualitas Model menyertakan grafik ROC dengan tingkat TP sebagai sumbu y dan FPR sebagai sumbu x. Area di bawah karakteristik operasi penerima (AUC-ROC) mewakili pertukaran antara TPR dan FPR.

Anda membuat kurva ROC dengan mengambil prediktor klasifikasi biner, yang menggunakan nilai ambang batas, dan menetapkan label dengan probabilitas prediksi. Saat Anda memvariasikan ambang batas untuk model, Anda menutupi dari dua ekstrem. Ketika TPR dan FPR keduanya 0, itu menyiratkan bahwa semuanya diberi label "tidak", dan ketika TPR dan FPR keduanya 1 itu menyiratkan bahwa semuanya diberi label "ya".

Prediktor acak yang memberi label "Ya" pada separuh waktu dan "Tidak" pada separuh waktu lainnya akan memiliki ROC yang berupa garis diagonal lurus (garis titik-titik merah). Garis ini memotong persegi satuan menjadi dua segitiga sama besar. Jadi, luas daerah di bawah kurva adalah 0.5. Nilai AUC-ROC 0.5 berarti bahwa prediktor Anda tidak lebih baik dalam membedakan antara dua kelas daripada menebak secara acak apakah pelanggan akan membuka akun atau tidak. Semakin dekat nilai AUC-ROC dengan 1.0, semakin baik prediksinya. Nilai di bawah 0.5 menunjukkan bahwa kami benar-benar dapat membuat model kami menghasilkan prediksi yang lebih baik dengan membalikkan jawaban yang diberikannya kepada kami. Untuk model terbaik kami, AUC adalah 0.93.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kurva Recall Presisi

Model Quality Report juga membuat Kurva Precision Recall (PR) untuk memplot presisi (sumbu y) dan recall (sumbu x) untuk ambang batas yang berbeda – seperti kurva ROC. Kurva PR, yang sering digunakan dalam Information Retrieval, merupakan alternatif dari kurva ROC untuk masalah klasifikasi dengan skew besar dalam distribusi kelas.

Untuk dataset kelas yang tidak seimbang ini, Kurva PR khususnya menjadi berguna ketika kelas positif minoritas lebih menarik daripada kelas negatif mayoritas. Ingat bahwa model kami menunjukkan presisi 0.53 dan penarikan 0.72. Selanjutnya, ingatlah bahwa pengklasifikasi konstanta terbaik tidak dapat membedakan antara 'ya' dan 'tidak'. Itu akan memprediksi kelas acak atau kelas konstan setiap saat.

Kurva untuk kumpulan data yang seimbang antara 'ya' dan 'tidak' akan menjadi garis horizontal pada 0.5, dan dengan demikian akan memiliki luas di bawah kurva PR (AUPRC) sebagai 0.5. Untuk membuat RRC, kami memplot berbagai model pada kurva pada ambang batas yang bervariasi, dengan cara yang sama seperti kurva ROC. Untuk data kami, AUPRC adalah 0.61.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Keluaran Laporan Kualitas Model

Anda dapat menemukan Laporan Kualitas Model di bucket Amazon S3 yang Anda tentukan saat menetapkan jalur keluaran sebelum menjalankan eksperimen SageMaker AutoPilot. Anda akan menemukan laporan di bawah documentation/model_monitor/output/<autopilot model name>/ prefix disimpan sebagai PDF.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kesimpulan

Laporan Kualitas Model Autopilot SageMaker memudahkan Anda melihat dan membagikan hasil eksperimen SageMaker Autopilot dengan cepat. Anda dapat dengan mudah menyelesaikan pelatihan dan penyetelan model menggunakan SageMaker Autopilot, lalu merujuk laporan yang dihasilkan untuk menginterpretasikan hasilnya. Apakah Anda akhirnya menggunakan model terbaik SageMaker Autopilot, atau kandidat lain, hasil ini dapat menjadi titik awal yang membantu untuk mengevaluasi pelatihan model awal dan pekerjaan penyetelan. Laporan Kualitas Model Autopilot SageMaker membantu mengurangi waktu yang diperlukan untuk menulis kode dan menghasilkan visual untuk evaluasi dan perbandingan kinerja.

Anda dapat dengan mudah memasukkan autoML ke dalam kasus bisnis Anda hari ini tanpa harus membangun tim ilmu data. SageMaker dokumentasi menyediakan banyak sampel untuk membantu Anda memulai.

Tentang Penulis

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Peter Chung adalah Arsitek Solusi untuk AWS, dan bersemangat membantu pelanggan mengungkap wawasan dari data mereka. Dia telah membangun solusi untuk membantu organisasi membuat keputusan berdasarkan data baik di sektor publik maupun swasta. Dia memegang semua sertifikasi AWS serta dua sertifikasi GCP. Dia menikmati kopi, memasak, tetap aktif, dan menghabiskan waktu bersama keluarganya.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Arunprasath Shankar adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin (AI / ML) dengan AWS, membantu pelanggan global menskalakan solusi AI mereka secara efektif dan efisien di cloud. Di waktu senggangnya, Arun suka menonton film sci-fi dan mendengarkan musik klasik.

Buat metrik evaluasi model secara otomatis menggunakan Laporan Kualitas Model SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Ali Takbir adalah Arsitek Solusi spesialis AI/ML, dan membantu pelanggan dengan menggunakan Pembelajaran Mesin untuk menyelesaikan tantangan bisnis mereka di AWS Cloud.

Pradeep Reddy adalah Manajer Produk Senior di tim ML Rendah/Tanpa Kode SageMaker, yang mencakup SageMaker Autopilot, Penyetel Model Otomatis SageMaker. Di luar pekerjaan, Pradeep senang membaca, berlari, dan bermain-main dengan komputer seukuran telapak tangan seperti raspberry pi, dan teknologi otomatisasi rumah lainnya.

Stempel Waktu: 29 Maret, 2022

Stempel Waktu: Desember 4, 2023

Diterbitkan Ulang Oleh Plato

Membuka Inovasi: AWS dan Anthropic bersama-sama mendorong batasan AI generatif | Layanan Web Amazon

Tentukan izin khusus dalam hitungan menit dengan Amazon SageMaker Role Manager melalui AWS CDK | Layanan Web Amazon

Kurangi biaya inferensi Amazon SageMaker dengan AWS Graviton

Peramalan yang mudah dan akurat dengan AutoGluon-TimeSeries

Bagaimana Getir mengurangi durasi pelatihan model sebesar 90% dengan Amazon SageMaker dan AWS Batch | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun