Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML

Lab Studio Amazon SageMaker adalah lingkungan pengembangan pembelajaran mesin (ML) gratis berdasarkan JupyterLab sumber terbuka bagi siapa saja untuk belajar dan bereksperimen dengan ML menggunakan sumber daya komputasi AWS ML. Ini didasarkan pada arsitektur dan antarmuka pengguna yang sama dengan Studio Amazon SageMaker, tetapi dengan subset kemampuan Studio.

Saat mulai mengerjakan inisiatif ML, Anda perlu melakukan analisis data eksplorasi (EDA) atau persiapan data sebelum melanjutkan pembuatan model. Pengatur Data Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi ML melalui antarmuka visual. Data Wrangler mengurangi waktu yang diperlukan untuk menggabungkan dan menyiapkan data untuk ML dari minggu ke menit.

Akselerator utama persiapan fitur di Data Wrangler adalah Kualitas Data dan Laporan Wawasan. Laporan ini memeriksa kualitas data dan membantu mendeteksi ketidaknormalan pada data Anda, sehingga Anda dapat melakukan rekayasa data yang diperlukan untuk memperbaiki set data Anda. Anda dapat menggunakan Kualitas Data dan Laporan Wawasan untuk melakukan analisis data Anda guna mendapatkan wawasan tentang kumpulan data Anda seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda dan membantu Anda mengidentifikasi langkah-langkah persiapan data yang perlu Anda lakukan.

Pengguna Studio Lab dapat memanfaatkan Data Wrangler karena kualitas data dan rekayasa fitur sangat penting untuk kinerja prediktif model Anda. Data Wrangler membantu kualitas data dan rekayasa fitur dengan memberikan wawasan tentang masalah kualitas data dan dengan mudah mengaktifkan iterasi dan rekayasa fitur yang cepat menggunakan UI kode rendah.

Dalam postingan ini, kami menunjukkan cara melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab untuk melakukan pembuatan model.

Ikhtisar solusi

Solusinya mencakup langkah-langkah tingkat tinggi berikut:

  1. Buat akun AWS dan pengguna admin. Ini adalah prasyarat
  2. Unduh kumpulan datanya churn.csv.
  3. Muat kumpulan data ke Layanan Penyimpanan Sederhana Amazon (Amazon S3).
  4. Buat domain SageMaker Studio dan luncurkan Data Wrangler.
  5. Impor kumpulan data ke aliran Data Wrangler dari Amazon S3.
  6. Buat Kualitas Data dan Laporan Wawasan dan buat kesimpulan tentang rekayasa fitur yang diperlukan.
  7. Lakukan transformasi data yang diperlukan di Data Wrangler.
  8. Unduh Kualitas Data dan Laporan Wawasan serta kumpulan data yang diubah.
  9. Unggah data ke proyek Lab Studio untuk pelatihan model.

Diagram berikut menggambarkan alur kerja ini.

Prasyarat

Untuk menggunakan Data Wrangler dan Studio Lab, Anda memerlukan prasyarat berikut:

Bangun alur kerja persiapan data dengan Data Wrangler

Untuk memulai, selesaikan langkah-langkah berikut:

  1. Unggah kumpulan data Anda ke Amazon S3.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. Di konsol SageMaker, di bawah Panel kontrol di panel navigasi, pilih studio.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  3. pada Luncurkan aplikasi menu di sebelah profil pengguna Anda, pilih studio.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Setelah Anda berhasil masuk ke Studio, Anda akan melihat lingkungan pengembangan seperti tangkapan layar berikut.
  4. Untuk membuat alur kerja Data Wrangler baru, di File menu, pilih New, Lalu pilih Aliran Data Wrangler.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Langkah pertama dalam Data Wrangler adalah mengimpor data Anda. Anda dapat mengimpor data dari beberapa sumber data, seperti Amazon S3, Amazon Athena, Pergeseran Merah Amazon, Kepingan salju, dan batu bata data. Dalam contoh ini, kami menggunakan Amazon S3. Jika Anda hanya ingin melihat cara kerja Data Wrangler, Anda selalu dapat memilih Gunakan kumpulan data sampel.
  5. Pilih Impor data.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  6. Pilih Amazon S3.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  7. Pilih kumpulan data yang Anda unggah dan pilih impor.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Data Wrangler memungkinkan Anda untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya.
  8. Untuk mendapatkan wawasan tentang kumpulan data dengan cepat, pilih K . pertama untuk Sampling dan masukkan 50000 untuk Ukuran sampel.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pahami kualitas data dan dapatkan wawasan

Mari gunakan Data Quality dan Insights Report untuk melakukan analisis data yang kita impor ke Data Wrangler. Anda dapat menggunakan laporan untuk memahami langkah-langkah apa yang perlu Anda ambil untuk membersihkan dan memproses data Anda. Laporan ini memberikan informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda.

  1. Pilih tanda plus di sebelah Tipe data Dan pilihlah Dapatkan wawasan data.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
  3. Untuk Kolom sasaran, pilih Mengocok?.
  4. Untuk Jenis masalahPilih Klasifikasi.
  5. Pilih membuat.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda disajikan dengan laporan terperinci yang dapat Anda tinjau dan unduh. Laporan ini mencakup beberapa bagian seperti model cepat, ringkasan fitur, korelasi fitur, dan wawasan data. Tangkapan layar berikut memberikan contoh bagian ini.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengamatan dari laporan

Dari laporan tersebut, kita dapat membuat pengamatan sebagai berikut:

  • Tidak ada baris duplikat yang ditemukan.
  • Grafik State kolom tampaknya cukup merata, sehingga data seimbang dalam hal populasi negara.
  • Grafik Phone kolom menyajikan terlalu banyak nilai unik untuk digunakan secara praktis. Terlalu banyak nilai unik membuat kolom ini tidak berguna. Kita bisa menjatuhkan Phone kolom dalam transformasi kami.
  • Berdasarkan bagian korelasi fitur laporan, Mins dan Charge sangat berkorelasi. Kita dapat menghapus salah satunya.

Transformasi

Berdasarkan pengamatan kami, kami ingin membuat transformasi berikut:

  • Lepaskan Phone kolom karena memiliki banyak nilai unik.
  • Kami juga melihat beberapa fitur yang pada dasarnya memiliki korelasi 100% satu sama lain. Menyertakan pasangan fitur ini dalam beberapa algoritme ML dapat menimbulkan masalah yang tidak diinginkan, sedangkan pada yang lain hanya akan menimbulkan redundansi dan bias kecil. Mari kita hapus satu fitur dari masing-masing pasangan yang sangat berkorelasi: Day Charge dari pasangan dengan Day Mins, Night Charge dari pasangan dengan Night Mins, dan Intl Charge dari pasangan dengan Intl Mins.
  • mengubah True or False dalam Churn kolom menjadi nilai numerik 1 atau 0.
  1. Kembali ke aliran data dan pilih tanda plus di sebelah Tipe data.
  2. Pilih Tambahkan transformasi.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  3. Pilih Tambahkan langkah.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  4. Anda dapat mencari transformasi yang Anda cari (dalam kasus kami, kelola kolom).
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  5. Pilih Kelola kolom.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  6. Untuk Mengubahยธ pilih Jatuhkan kolom.
  7. Untuk Kolom untuk dijatuhkanยธ pilih Phone, Day Charge, Eve Charge, Night Charge, dan Intl Charge.
  8. Pilih Preview, Lalu pilih Memperbarui.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Mari tambahkan transformasi lain untuk melakukan pengkodean kategoris pada Churn? kolom.
  9. Pilih transformasi Enkode kategoris.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  10. Untuk Mengubah, pilih Kode ordinal.
  11. Untuk Kolom masukan, memilih Churn? kolom.
  12. Untuk Strategi penanganan tidak valid, pilih Ganti dengan NaN.
  13. Pilih Preview, Lalu pilih Memperbarui.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang True dan False diubah menjadi 1 dan 0, masing-masing.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang setelah kita memahami data dengan baik dan telah menyiapkan dan mengubah data untuk pembuatan model, kita dapat memindahkan data ke Studio Lab untuk pembuatan model.

Unggah data ke Studio Lab

Untuk mulai menggunakan data di Studio Lab, selesaikan langkah-langkah berikut:

  1. Pilih Ekspor data untuk ekspor ke ember S3.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. Untuk Lokasi Amazon S3, masukkan jalur S3 Anda.
  3. Tentukan jenis file.
  4. Pilih Ekspor data.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  5. Setelah Anda mengekspor data, Anda dapat mengunduh data dari bucket S3 ke komputer lokal Anda.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  6. Sekarang Anda dapat pergi ke Studio Lab dan mengunggah file ke Studio Lab.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Atau, Anda dapat terhubung ke Amazon S3 dari Studio Lab. Untuk informasi lebih lanjut, lihat Gunakan sumber daya eksternal di Amazon SageMaker Studio Lab.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  7. Mari instal SageMaker dan impor Panda.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  8. Impor semua perpustakaan sesuai kebutuhan.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  9. Sekarang kita dapat membaca file CSV.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  10. Ayo cetak churn untuk memastikan dataset benar.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang setelah Anda memiliki kumpulan data yang diproses di Studio Lab, Anda dapat melakukan langkah lebih lanjut yang diperlukan untuk pembuatan model.

Harga Data Wrangler

Anda dapat melakukan semua langkah dalam posting ini untuk EDA atau persiapan data dalam Data Wrangler dan membayar untuk contoh sederhana, pekerjaan, dan harga penyimpanan berdasarkan penggunaan atau konsumsi. Tidak diperlukan biaya di muka atau lisensi.

Membersihkan

Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instans yang dijalankannya untuk menghindari biaya tambahan. Untuk menghindari kehilangan pekerjaan, simpan aliran data Anda sebelum mematikan Data Wrangler.

  1. Untuk menyimpan aliran data Anda di Studio, pilih File, Lalu pilih Simpan Aliran Data Wrangler.
    Data Wrangler secara otomatis menyimpan aliran data Anda setiap 60 detik.
  2. Untuk mematikan instance Data Wrangler, di Studio, pilih Menjalankan Instance dan Kernel.
  3. Bawah APLIKASI YANG SEDANG BERJALAN, pilih ikon matikan di sebelah sagemaker-data-wrangler-1.0 app.
  4. Pilih Matikan semua untuk mengkonfirmasi.
    Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Data Wrangler berjalan pada instance ml.m5.4xlarge. Contoh ini menghilang dari INSTALASI YANG BERJALAN saat Anda mematikan aplikasi Data Wrangler.

Setelah Anda mematikan aplikasi Data Wrangler, itu harus dimulai ulang saat berikutnya Anda membuka file aliran Data Wrangler. Ini bisa memakan waktu beberapa menit.

Kesimpulan

Dalam posting ini, kami melihat bagaimana Anda bisa mendapatkan wawasan tentang kumpulan data Anda, melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler di dalam Studio, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab dan melakukan pembuatan model dan langkah-langkah lainnya.

Dengan SageMaker Data Wrangler, Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi dari satu antarmuka visual.


Tentang penulis

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia sangat menyukai cloud dan machine learning. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan hasrat untuk merancang, membuat, dan mempromosikan pengalaman Data dan Analisis yang berpusat pada manusia. Dia mendukung pelanggan AWS Strategic dalam transformasi mereka menuju organisasi berbasis data.

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS