Persiapan Data Terpadu Dan Pelatihan Model Dengan Amazon SageMaker Data Wrangler Dan Amazon SageMaker Autopilot

Diterbitkan Ulang Oleh Plato

Followers: 0

Data memicu pembelajaran mesin (ML); kualitas data memiliki dampak langsung pada kualitas model ML. Oleh karena itu, meningkatkan kualitas data dan menerapkan teknik rekayasa fitur yang tepat sangat penting untuk membuat model ML yang akurat. Praktisi ML sering kali dengan susah payah mengulangi rekayasa fitur, pilihan algoritme, dan aspek lain dari ML untuk mencari model optimal yang dapat digeneralisasi dengan baik pada data dunia nyata dan memberikan hasil yang diinginkan. Karena kecepatan dalam melakukan bisnis sangat penting, proses yang sangat membosankan dan berulang ini dapat menyebabkan penundaan proyek dan kehilangan peluang bisnis.

Pengatur Data Amazon SageMaker mengurangi waktu untuk mengumpulkan dan menyiapkan data untuk ML dari minggu ke menit, dan Autopilot Amazon SageMaker secara otomatis membuat, melatih, dan menyetel model ML terbaik berdasarkan data Anda. Dengan Autopilot, Anda tetap mempertahankan kontrol penuh dan visibilitas data dan model Anda. Kedua layanan dibuat khusus untuk membuat praktisi ML lebih produktif dan mempercepat waktu ke nilai.

Data Wrangler kini memberikan pengalaman terpadu yang memungkinkan Anda menyiapkan data dan melatih model ML dengan mulus di Autopilot. Dengan fitur yang baru diluncurkan ini, kini Anda dapat menyiapkan data di Data Wrangler dan meluncurkan eksperimen Autopilot dengan mudah langsung dari antarmuka pengguna (UI) Data Wrangler. Hanya dengan beberapa klik, Anda dapat membuat, melatih, dan menyesuaikan model ML secara otomatis, membuatnya lebih mudah untuk menggunakan teknik rekayasa fitur yang canggih, melatih model ML berkualitas tinggi, dan mendapatkan wawasan dari data Anda dengan lebih cepat.

Dalam postingan ini, kami membahas bagaimana Anda dapat menggunakan pengalaman terintegrasi baru ini di Data Wrangler untuk menganalisis kumpulan data dan dengan mudah membuat model ML berkualitas tinggi di Autopilot.

Ikhtisar kumpulan data

Pima Indians adalah kelompok Pribumi yang tinggal di Meksiko dan Arizona, AS. Studi menunjukkan orang Indian Pima sebagai kelompok populasi berisiko tinggi untuk diabetes mellitus. Memprediksi kemungkinan risiko individu dan kerentanan terhadap penyakit kronis seperti diabetes adalah tugas penting dalam meningkatkan kesehatan dan kesejahteraan kelompok minoritas yang sering kurang terwakili ini.

Kami menggunakan Dataset publik Pima Indian Diabetes untuk memprediksi kerentanan seseorang terhadap diabetes. Kami fokus pada integrasi baru antara Data Wrangler dan Autopilot untuk menyiapkan data dan secara otomatis membuat model ML tanpa menulis satu baris kode pun.

Kumpulan data berisi informasi tentang wanita India Pima berusia 21 tahun atau lebih dan mencakup beberapa variabel prediktor medis (independen) dan satu variabel target (tergantung), Hasil. Bagan berikut menjelaskan kolom dalam kumpulan data kami.

Kolom Nama	Deskripsi Produk
Kehamilan	Berapa kali hamil?
Glukosa	Konsentrasi glukosa plasma dalam tes toleransi glukosa oral dalam 2 jam
Tekanan darah	Tekanan darah diastolik (mm Hg)
Ketebalan Kulit	Ketebalan lipatan kulit trisep (mm)
Insulin	insulin serum 2 jam (mu U/ml)
BMI	Indeks massa tubuh (berat dalam kg/(tinggi dalam m)^2)
Diabetes Silsilah	Fungsi silsilah diabetes
Usia	Usia di tahun ini
Hasil	Variabel sasaran

Dataset berisi 768 record, dengan total 9 fitur. Kami menyimpan dataset ini di Bucket Penyimpanan Sederhana Amazon (Amazon S3) sebagai file CSV lalu impor CSV langsung ke aliran Data Wrangler dari Amazon S3.

Ikhtisar solusi

Diagram berikut merangkum apa yang kami capai dalam posting ini.[KT1]

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Ilmuwan data, dokter, dan pakar domain medis lainnya menyediakan data pasien dengan informasi tentang kadar glukosa, tekanan darah, indeks massa tubuh, dan fitur lain yang digunakan untuk memprediksi kemungkinan menderita diabetes. Dengan kumpulan data di Amazon S3, kami mengimpor kumpulan data ke Data Wrangler untuk melakukan analisis data eksplorasi (EDA), pembuatan profil data, rekayasa fitur, dan membagi kumpulan data menjadi pelatihan dan pengujian untuk pembuatan model dan evaluasi.

Kami kemudian menggunakan integrasi fitur baru Autopilot untuk membangun model dengan cepat langsung dari antarmuka Data Wrangler. Kami memilih model terbaik Autopilot berdasarkan model dengan skor F-beta tertinggi. Setelah Autopilot menemukan model terbaik, kami menjalankan Transformasi Batch SageMaker pekerjaan pada tes (holdout) set dengan artefak model model terbaik untuk evaluasi.

Pakar medis dapat memberikan data baru ke model yang divalidasi untuk mendapatkan prediksi untuk melihat apakah pasien kemungkinan akan menderita diabetes. Dengan wawasan ini, para ahli medis dapat memulai pengobatan lebih awal untuk meningkatkan kesehatan dan kesejahteraan populasi yang rentan. Pakar medis juga dapat menjelaskan prediksi model dengan merujuk detail model di Autopilot karena mereka memiliki visibilitas penuh ke dalam keterjelasan, kinerja, dan artefak model. Visibilitas ini selain validasi model dari set tes memberikan kepercayaan yang lebih besar kepada ahli medis dalam kemampuan prediksi model.

Kami memandu Anda melalui langkah-langkah tingkat tinggi berikut.

Impor kumpulan data dari Amazon S3.
Lakukan EDA dan pembuatan profil data dengan Data Wrangler.
Lakukan rekayasa fitur untuk menangani outlier dan nilai yang hilang.
Pisahkan data menjadi set kereta dan pengujian.
Latih dan bangun model dengan Autopilot.
Uji model pada sampel ketidaksepakatan dengan notebook SageMaker.
Analisis validasi dan uji kinerja set.

Prasyarat

Selesaikan langkah-langkah prasyarat berikut:

Unggah kumpulan data ke ember S3 pilihan Anda.
Pastikan Anda memiliki izin yang diperlukan. Untuk informasi lebih lanjut, lihat Memulai dengan Data Wrangler.
Siapkan domain SageMaker yang dikonfigurasi untuk menggunakan Data Wrangler. Untuk petunjuk, lihat Masuk ke Domain Amazon SageMaker.

Impor dataset Anda dengan Data Wrangler

Anda dapat mengintegrasikan aliran data Data Wrangler ke dalam alur kerja ML Anda untuk menyederhanakan dan merampingkan prapemrosesan data dan rekayasa fitur menggunakan sedikit atau tanpa pengkodean. Selesaikan langkah-langkah berikut:

Buat yang baru Aliran data Wrangler.

Jika ini pertama kalinya Anda membuka Data Wrangler, Anda mungkin harus menunggu beberapa menit hingga siap.

Pilih set data yang disimpan di Amazon S3 dan impor ke Data Wrangler.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Setelah Anda mengimpor kumpulan data, Anda akan melihat awal aliran data dalam UI Data Wrangler. Anda sekarang memiliki diagram alir.

Pilih tanda plus di sebelah Tipe data Dan pilihlah Edit untuk mengonfirmasi bahwa Data Wrangler secara otomatis menyimpulkan tipe data yang benar untuk kolom data Anda.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Jika tipe data tidak benar, Anda dapat dengan mudah memodifikasinya melalui UI. Jika ada beberapa sumber data, Anda dapat menggabungkan atau menggabungkannya.

Sekarang kita dapat membuat analisis dan menambahkan transformasi.

Lakukan analisis data eksplorasi dengan laporan wawasan data

Analisis data eksplorasi adalah bagian penting dari alur kerja ML. Kami dapat menggunakan laporan wawasan data baru dari Data Wrangler untuk mendapatkan pemahaman yang lebih baik tentang profil dan distribusi data kami. Laporan ini mencakup statistik ringkasan, peringatan kualitas data, wawasan kolom target, model cepat, dan informasi tentang baris anomali dan duplikat.

Pilih tanda plus di sebelah Tipe data Dan pilihlah Dapatkan wawasan data.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Untuk target kolom, pilih Hasil.
Untuk Jenis masalah, dan (opsional) pilih Klasifikasi.
Pilih membuat.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Hasilnya menunjukkan ringkasan data dengan statistik dataset.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami juga dapat melihat distribusi baris berlabel dengan histogram, perkiraan kualitas prediksi yang diharapkan dari model dengan fitur model cepat, dan tabel ringkasan fitur.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami tidak membahas detail analisis laporan wawasan data; mengacu pada Percepat persiapan data dengan kualitas data dan wawasan di Amazon SageMaker Data Wrangler untuk detail tambahan tentang bagaimana Anda dapat menggunakan laporan wawasan data untuk mempercepat langkah persiapan data Anda.

Lakukan rekayasa fitur

Sekarang setelah kami membuat profil dan menganalisis distribusi kolom input kami pada tingkat tinggi, pertimbangan pertama untuk meningkatkan kualitas data kami adalah menangani nilai yang hilang.

Misalnya, kita tahu bahwa nol (0) untuk Insulin kolom mewakili nilai yang hilang. Kita bisa mengikuti rekomendasi untuk mengganti angka nol dengan NaN. Tetapi pada pemeriksaan lebih dekat, kami menemukan bahwa nilai minimum adalah 0 untuk kolom lain seperti Glucose, BloodPressure, SkinThickness, dan BMI. Kami membutuhkan cara untuk menangani nilai yang hilang, tetapi harus peka terhadap kolom dengan nol sebagai data yang valid. Mari kita lihat bagaimana kita bisa memperbaikinya.

Dalam majalah Detail Fitur bagian, laporan menimbulkan Menyamarkan nilai yang hilang peringatan untuk fitur Insulin.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Karena nol di Insulin kolom sebenarnya data yang hilang, kami menggunakan Ubah regex menjadi hilang transform untuk mengubah nilai nol menjadi kosong (nilai yang hilang).

Pilih tanda plus di sebelah Data jenis Dan pilihlah Add mengubah.
Pilih Cari dan edit.
Untuk Mengubah, pilih Ubah regex menjadi hilang.
Untuk Memasukkan kolom, pilih kolom Insulin, Glucose, BloodPressure, SkinThickness, dan BMI.
Untuk pola, Masuk 0.
Pilih Preview dan Add untuk menyimpan langkah ini.

0 entri di bawah Insulin, Glucose, BloodPressure, SkinThickness, dan BMI sekarang kehilangan nilai.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Data Wrangler memberi Anda beberapa opsi lain untuk memperbaiki nilai yang hilang.

Kami menangani nilai yang hilang dengan memasukkan perkiraan median untuk Glucose kolom.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami juga ingin memastikan bahwa fitur kami berada pada skala yang sama. Kami tidak ingin secara tidak sengaja memberi bobot lebih pada fitur tertentu hanya karena fitur tersebut berisi rentang numerik yang lebih besar. Kami menormalkan fitur kami untuk melakukan ini.

Tambahkan baru Proses numerik mengubah dan memilih Nilai skala.
Untuk Scaler, pilih Skalar min-maks.
Untuk Kolom masukan, pilih kolom Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI, dan Age.
set Min untuk 0 dan max untuk 1.

Ini memastikan bahwa fitur kami berada di antara nilai-nilai 0 dan 1.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Setelah kami membuat beberapa fitur, kami membagi dataset kami menjadi pelatihan dan pengujian sebelum kami membuat model.

Membagi data menjadi pelatihan dan pengujian

Dalam fase pembuatan model alur kerja ML, Anda menguji keefektifan model Anda dengan menjalankan prediksi batch. Anda dapat menyisihkan kumpulan data pengujian atau ketidaksepakatan untuk evaluasi guna melihat performa model Anda dengan membandingkan prediksi dengan kebenaran dasar. Umumnya, jika lebih banyak prediksi model cocok dengan true label, kita dapat menentukan model berkinerja baik.

Kami menggunakan Data Wrangler untuk membagi dataset kami untuk pengujian. Kami mempertahankan 90% dari kumpulan data kami untuk pelatihan karena kami memiliki kumpulan data yang relatif kecil. Sisa 10% dari kumpulan data kami berfungsi sebagai kumpulan data pengujian. Kami menggunakan dataset ini untuk memvalidasi model Autopilot nanti di posting ini.

Kami membagi data kami dengan memilih Pisahkan data mengubah dan memilih Perpecahan acak sebagai metode. Kami menetapkan 0.9 sebagai persentase split untuk pelatihan dan 0.1 untuk pengujian.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Dengan transformasi data dan menampilkan langkah-langkah rekayasa selesai, kami sekarang siap untuk melatih model.

Latih dan validasi model

Kita dapat menggunakan integrasi Data Wrangler baru dengan Autopilot untuk melatih model secara langsung dari UI aliran data Data Wrangler.

Pilih tanda plus di sebelah Dataset Dan pilihlah Model kereta.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Untuk Lokasi Amazon S3, tentukan lokasi Amazon S3 tempat SageMaker mengekspor data Anda.

Autopilot menggunakan lokasi ini untuk melatih model secara otomatis, menghemat waktu Anda karena tidak perlu menentukan lokasi output aliran Data Wrangler, kemudian harus menentukan lokasi input data pelatihan Autopilot. Ini membuat pengalaman yang lebih mulus.

Pilih Ekspor dan melatih untuk memulai pembuatan model dengan Autopilot.

Autopilot secara otomatis memilih lokasi input dan output data pelatihan. Anda hanya perlu menentukan kolom target dan klik Buat Eksperimen untuk melatih model Anda.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Uji model pada sampel ketidaksepakatan

Saat Autopilot menyelesaikan eksperimen, kita dapat melihat hasil pelatihan dan menjelajahi model terbaik.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pilih Lihat detail model untuk model yang Anda inginkan, lalu pilih Performance tab pada halaman detail model.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Grafik Performance tab menampilkan beberapa tes pengukuran model, termasuk matriks konfusi, area di bawah kurva presisi/recall (AUCPR), dan area di bawah kurva karakteristik operasi penerima (ROC). Ini menggambarkan kinerja validasi model secara keseluruhan, tetapi mereka tidak memberi tahu kami apakah model akan digeneralisasi dengan baik. Kami masih perlu menjalankan evaluasi pada data uji yang tidak terlihat untuk melihat seberapa akurat model memprediksi apakah seseorang akan menderita diabetes.

Untuk memastikan model digeneralisasi dengan cukup baik, kami menyisihkan sampel uji untuk pengambilan sampel independen. Kita dapat melakukannya di UI aliran Data Wrangler.

Pilih tanda plus di sebelah Dataset, pilih Ekspor ke, dan pilih Amazon S3.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Tentukan jalur Amazon S3.

Kami merujuk ke jalur ini ketika kami menjalankan inferensi batch untuk validasi di bagian berikutnya.

Buat notebook SageMaker baru untuk melakukan inferensi batch pada sampel ketidaksepakatan dan menilai kinerja pengujian. Lihat berikut ini GitHub repo untuk buku catatan sampel untuk menjalankan inferensi batch untuk validasi.

Analisis validasi dan uji kinerja set

Ketika transformasi batch selesai, kami membuat matriks kebingungan untuk membandingkan hasil aktual dan prediksi dari kumpulan data ketidaksepakatan.

Kami melihat 23 positif sejati dan 33 negatif sejati dari hasil kami. Dalam kasus kami, hasil positif yang sebenarnya mengacu pada model yang memprediksi dengan benar seseorang menderita diabetes. Sebaliknya, true negatif mengacu pada model yang memprediksi dengan benar seseorang tidak menderita diabetes.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Dalam kasus kami, presisi dan ingatan adalah metrik penting. Presisi pada dasarnya mengukur semua individu yang diprediksi menderita diabetes, berapa banyak yang benar-benar menderita diabetes? Sebaliknya, recall membantu mengukur semua individu yang memang menderita diabetes, berapa banyak yang diprediksi menderita diabetes? Misalnya, Anda mungkin ingin menggunakan model dengan presisi tinggi karena Anda ingin merawat sebanyak mungkin individu, terutama jika pengobatan tahap pertama tidak berpengaruh pada individu tanpa diabetes (ini adalah positif palsu—mereka yang diberi label menderita diabetes). padahal sebenarnya tidak).

Kami juga memplot area di bawah grafik kurva ROC (AUC) untuk mengevaluasi hasilnya. Semakin tinggi AUC, semakin baik model dalam membedakan antar kelas, yang dalam kasus kami adalah seberapa baik kinerja model dalam membedakan pasien dengan dan tanpa diabetes.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kesimpulan

Dalam posting ini, kami menunjukkan cara mengintegrasikan pemrosesan data Anda, menampilkan teknik, dan pembuatan model menggunakan Data Wrangler dan Autopilot. Kami menyoroti bagaimana Anda dapat dengan mudah melatih dan menyetel model dengan Autopilot langsung dari antarmuka pengguna Data Wrangler. Dengan fitur integrasi ini, kita dapat dengan cepat membangun model setelah menyelesaikan rekayasa fitur, tanpa menulis kode apa pun. Kemudian kami mereferensikan model terbaik Autopilot untuk menjalankan prediksi batch menggunakan kelas AutoML dengan SageMaker Python SDK.

Solusi low-code dan AutoML seperti Data Wrangler dan Autopilot menghilangkan kebutuhan untuk memiliki pengetahuan coding yang mendalam untuk membangun model ML yang kuat. Mulai menggunakan Data Wrangler hari ini untuk merasakan betapa mudahnya membangun model ML menggunakan Autopilot SageMaker.

Tentang Penulis

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Peter Chung adalah Arsitek Solusi untuk AWS, dan bersemangat membantu pelanggan mengungkap wawasan dari data mereka. Dia telah membangun solusi untuk membantu organisasi membuat keputusan berdasarkan data baik di sektor publik maupun swasta. Dia memegang semua sertifikasi AWS serta dua sertifikasi GCP. Dia menikmati kopi, memasak, tetap aktif, dan menghabiskan waktu bersama keluarganya.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Pradeep Reddy adalah Manajer Produk Senior di tim ML Rendah/Tanpa Kode SageMaker, yang mencakup SageMaker Autopilot, Penyetel Model Otomatis SageMaker. Di luar pekerjaan, Pradeep senang membaca, berlari, dan bermain-main dengan komputer seukuran telapak tangan seperti raspberry pi, dan teknologi otomatisasi rumah lainnya.

Persiapan data terpadu dan pelatihan model dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Arunprasath Shankar adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin (AI / ML) dengan AWS, membantu pelanggan global menskalakan solusi AI mereka secara efektif dan efisien di cloud. Di waktu senggangnya, Arun suka menonton film sci-fi dan mendengarkan musik klasik.

Srujan Gopu adalah Senior Frontend Engineer di SageMaker Low Code/No Code ML yang membantu pelanggan produk Autopilot dan Canvas. Saat tidak coding, Srujan senang berlari dengan anjingnya Max, mendengarkan buku audio dan pengembangan game VR.