Gunakan Amazon SageMaker Data Wrangler Untuk Persiapan Data Dan Lab Studio Untuk Belajar Dan Bereksperimen Dengan ML

Diterbitkan Ulang Oleh Plato

Followers: 0

Lab Studio Amazon SageMaker adalah lingkungan pengembangan pembelajaran mesin (ML) gratis berdasarkan JupyterLab sumber terbuka bagi siapa saja untuk belajar dan bereksperimen dengan ML menggunakan sumber daya komputasi AWS ML. Ini didasarkan pada arsitektur dan antarmuka pengguna yang sama dengan Studio Amazon SageMaker, tetapi dengan subset kemampuan Studio.

Saat mulai mengerjakan inisiatif ML, Anda perlu melakukan analisis data eksplorasi (EDA) atau persiapan data sebelum melanjutkan pembuatan model. Pengatur Data Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi ML melalui antarmuka visual. Data Wrangler mengurangi waktu yang diperlukan untuk menggabungkan dan menyiapkan data untuk ML dari minggu ke menit.

Akselerator utama persiapan fitur di Data Wrangler adalah Kualitas Data dan Laporan Wawasan. Laporan ini memeriksa kualitas data dan membantu mendeteksi ketidaknormalan pada data Anda, sehingga Anda dapat melakukan rekayasa data yang diperlukan untuk memperbaiki set data Anda. Anda dapat menggunakan Kualitas Data dan Laporan Wawasan untuk melakukan analisis data Anda guna mendapatkan wawasan tentang kumpulan data Anda seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda dan membantu Anda mengidentifikasi langkah-langkah persiapan data yang perlu Anda lakukan.

Pengguna Studio Lab dapat memanfaatkan Data Wrangler karena kualitas data dan rekayasa fitur sangat penting untuk kinerja prediktif model Anda. Data Wrangler membantu kualitas data dan rekayasa fitur dengan memberikan wawasan tentang masalah kualitas data dan dengan mudah mengaktifkan iterasi dan rekayasa fitur yang cepat menggunakan UI kode rendah.

Dalam postingan ini, kami menunjukkan cara melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab untuk melakukan pembuatan model.

Ikhtisar solusi

Solusinya mencakup langkah-langkah tingkat tinggi berikut:

Buat akun AWS dan pengguna admin. Ini adalah prasyarat
Unduh kumpulan datanya churn.csv.
Muat kumpulan data ke Layanan Penyimpanan Sederhana Amazon (Amazon S3).
Buat domain SageMaker Studio dan luncurkan Data Wrangler.
Impor kumpulan data ke aliran Data Wrangler dari Amazon S3.
Buat Kualitas Data dan Laporan Wawasan dan buat kesimpulan tentang rekayasa fitur yang diperlukan.
Lakukan transformasi data yang diperlukan di Data Wrangler.
Unduh Kualitas Data dan Laporan Wawasan serta kumpulan data yang diubah.
Unggah data ke proyek Lab Studio untuk pelatihan model.

Diagram berikut menggambarkan alur kerja ini.

Prasyarat

Untuk menggunakan Data Wrangler dan Studio Lab, Anda memerlukan prasyarat berikut:

Bangun alur kerja persiapan data dengan Data Wrangler

Untuk memulai, selesaikan langkah-langkah berikut:

Unggah kumpulan data Anda ke Amazon S3.
Di konsol SageMaker, di bawah Panel kontrol di panel navigasi, pilih studio.
pada Luncurkan aplikasi menu di sebelah profil pengguna Anda, pilih studio.

Setelah Anda berhasil masuk ke Studio, Anda akan melihat lingkungan pengembangan seperti tangkapan layar berikut.
Untuk membuat alur kerja Data Wrangler baru, di File menu, pilih New, Lalu pilih Aliran Data Wrangler.

Langkah pertama dalam Data Wrangler adalah mengimpor data Anda. Anda dapat mengimpor data dari beberapa sumber data, seperti Amazon S3, Amazon Athena, Pergeseran Merah Amazon, Kepingan salju, dan batu bata data. Dalam contoh ini, kami menggunakan Amazon S3. Jika Anda hanya ingin melihat cara kerja Data Wrangler, Anda selalu dapat memilih Gunakan kumpulan data sampel.
Pilih Impor data.
Pilih Amazon S3.
Pilih kumpulan data yang Anda unggah dan pilih impor.

Data Wrangler memungkinkan Anda untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya.
Untuk mendapatkan wawasan tentang kumpulan data dengan cepat, pilih K . pertama untuk Sampling dan masukkan 50000 untuk Ukuran sampel.

Pahami kualitas data dan dapatkan wawasan

Mari gunakan Data Quality dan Insights Report untuk melakukan analisis data yang kita impor ke Data Wrangler. Anda dapat menggunakan laporan untuk memahami langkah-langkah apa yang perlu Anda ambil untuk membersihkan dan memproses data Anda. Laporan ini memberikan informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda.

Pilih tanda plus di sebelah Tipe data Dan pilihlah Dapatkan wawasan data.
Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
Untuk Kolom sasaran, pilih Mengocok?.
Untuk Jenis masalahPilih Klasifikasi.
Pilih membuat.

Anda disajikan dengan laporan terperinci yang dapat Anda tinjau dan unduh. Laporan ini mencakup beberapa bagian seperti model cepat, ringkasan fitur, korelasi fitur, dan wawasan data. Tangkapan layar berikut memberikan contoh bagian ini.

Pengamatan dari laporan

Dari laporan tersebut, kita dapat membuat pengamatan sebagai berikut:

Tidak ada baris duplikat yang ditemukan.
Grafik State kolom tampaknya cukup merata, sehingga data seimbang dalam hal populasi negara.
Grafik Phone kolom menyajikan terlalu banyak nilai unik untuk digunakan secara praktis. Terlalu banyak nilai unik membuat kolom ini tidak berguna. Kita bisa menjatuhkan Phone kolom dalam transformasi kami.
Berdasarkan bagian korelasi fitur laporan, Mins dan Charge sangat berkorelasi. Kita dapat menghapus salah satunya.

Transformasi

Berdasarkan pengamatan kami, kami ingin membuat transformasi berikut:

Lepaskan Phone kolom karena memiliki banyak nilai unik.
Kami juga melihat beberapa fitur yang pada dasarnya memiliki korelasi 100% satu sama lain. Menyertakan pasangan fitur ini dalam beberapa algoritme ML dapat menimbulkan masalah yang tidak diinginkan, sedangkan pada yang lain hanya akan menimbulkan redundansi dan bias kecil. Mari kita hapus satu fitur dari masing-masing pasangan yang sangat berkorelasi: Day Charge dari pasangan dengan Day Mins, Night Charge dari pasangan dengan Night Mins, dan Intl Charge dari pasangan dengan Intl Mins.
mengubah True or False dalam Churn kolom menjadi nilai numerik 1 atau 0.

Kembali ke aliran data dan pilih tanda plus di sebelah Tipe data.
Pilih Tambahkan transformasi.
Pilih Tambahkan langkah.
Anda dapat mencari transformasi yang Anda cari (dalam kasus kami, kelola kolom).
Pilih Kelola kolom.
Untuk Mengubah¸ pilih Jatuhkan kolom.
Untuk Kolom untuk dijatuhkan¸ pilih Phone, Day Charge, Eve Charge, Night Charge, dan Intl Charge.
Pilih Preview, Lalu pilih Memperbarui.

Mari tambahkan transformasi lain untuk melakukan pengkodean kategoris pada Churn? kolom.
Pilih transformasi Enkode kategoris.
Untuk Mengubah, pilih Kode ordinal.
Untuk Kolom masukan, memilih Churn? kolom.
Untuk Strategi penanganan tidak valid, pilih Ganti dengan NaN.
Pilih Preview, Lalu pilih Memperbarui.

Sekarang True dan False diubah menjadi 1 dan 0, masing-masing.

Sekarang setelah kita memahami data dengan baik dan telah menyiapkan dan mengubah data untuk pembuatan model, kita dapat memindahkan data ke Studio Lab untuk pembuatan model.

Unggah data ke Studio Lab

Untuk mulai menggunakan data di Studio Lab, selesaikan langkah-langkah berikut:

Pilih Ekspor data untuk ekspor ke ember S3.
Untuk Lokasi Amazon S3, masukkan jalur S3 Anda.
Tentukan jenis file.
Pilih Ekspor data.
Setelah Anda mengekspor data, Anda dapat mengunduh data dari bucket S3 ke komputer lokal Anda.
Sekarang Anda dapat pergi ke Studio Lab dan mengunggah file ke Studio Lab.

Atau, Anda dapat terhubung ke Amazon S3 dari Studio Lab. Untuk informasi lebih lanjut, lihat Gunakan sumber daya eksternal di Amazon SageMaker Studio Lab.
Mari instal SageMaker dan impor Panda.
Impor semua perpustakaan sesuai kebutuhan.
Sekarang kita dapat membaca file CSV.
Ayo cetak churn untuk memastikan dataset benar.

Sekarang setelah Anda memiliki kumpulan data yang diproses di Studio Lab, Anda dapat melakukan langkah lebih lanjut yang diperlukan untuk pembuatan model.

Harga Data Wrangler

Anda dapat melakukan semua langkah dalam posting ini untuk EDA atau persiapan data dalam Data Wrangler dan membayar untuk contoh sederhana, pekerjaan, dan harga penyimpanan berdasarkan penggunaan atau konsumsi. Tidak diperlukan biaya di muka atau lisensi.

Membersihkan

Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instans yang dijalankannya untuk menghindari biaya tambahan. Untuk menghindari kehilangan pekerjaan, simpan aliran data Anda sebelum mematikan Data Wrangler.

Untuk menyimpan aliran data Anda di Studio, pilih File, Lalu pilih Simpan Aliran Data Wrangler.
Data Wrangler secara otomatis menyimpan aliran data Anda setiap 60 detik.
Untuk mematikan instance Data Wrangler, di Studio, pilih Menjalankan Instance dan Kernel.
Bawah APLIKASI YANG SEDANG BERJALAN, pilih ikon matikan di sebelah sagemaker-data-wrangler-1.0 app.
Pilih Matikan semua untuk mengkonfirmasi.

Data Wrangler berjalan pada instance ml.m5.4xlarge. Contoh ini menghilang dari INSTALASI YANG BERJALAN saat Anda mematikan aplikasi Data Wrangler.

Setelah Anda mematikan aplikasi Data Wrangler, itu harus dimulai ulang saat berikutnya Anda membuka file aliran Data Wrangler. Ini bisa memakan waktu beberapa menit.

Kesimpulan

Dalam posting ini, kami melihat bagaimana Anda bisa mendapatkan wawasan tentang kumpulan data Anda, melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler di dalam Studio, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab dan melakukan pembuatan model dan langkah-langkah lainnya.

Dengan SageMaker Data Wrangler, Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi dari satu antarmuka visual.

Tentang penulis

Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia sangat menyukai cloud dan machine learning. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.

Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan hasrat untuk merancang, membuat, dan mempromosikan pengalaman Data dan Analisis yang berpusat pada manusia. Dia mendukung pelanggan AWS Strategic dalam transformasi mereka menuju organisasi berbasis data.

James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.

Stempel Waktu: September 15, 2022September 15, 2022

Stempel Waktu: Juli 8, 2022

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Prasyarat

Bangun alur kerja persiapan data dengan Data Wrangler

Pahami kualitas data dan dapatkan wawasan

Pengamatan dari laporan

Transformasi

Unggah data ke Studio Lab

Harga Data Wrangler

Membersihkan

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

AWS DeepRacer memungkinkan pembangun dari semua tingkat keahlian untuk meningkatkan keterampilan dan memulai pembelajaran mesin | Layanan Web Amazon

Deteksi penipuan dalam bisnis yang berorientasi seluler menggunakan kecerdasan perangkat GrabDefence dan Amazon Fraud Detector

Berikan bantuan agen langsung untuk pengguna chatbot Anda dengan pusat kontak cloud Amazon Lex dan Talkdesk | Layanan Web Amazon

Jalankan beberapa model pembelajaran mendalam di GPU dengan titik akhir multi-model Amazon SageMaker

Bagaimana Amp di Amazon menggunakan data untuk meningkatkan keterlibatan pelanggan, Bagian 1: Membangun platform analisis data

Cegah pengambilalihan akun saat masuk dengan model Wawasan Pengambilalihan Akun baru di Amazon Fraud Detector

PaddleOCR terintegrasi dengan Proyek Amazon SageMaker untuk MLOps untuk melakukan pengenalan karakter optik pada dokumen identitas

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun