Lab Studio Amazon SageMaker adalah lingkungan pengembangan pembelajaran mesin (ML) gratis berdasarkan JupyterLab sumber terbuka bagi siapa saja untuk belajar dan bereksperimen dengan ML menggunakan sumber daya komputasi AWS ML. Ini didasarkan pada arsitektur dan antarmuka pengguna yang sama dengan Studio Amazon SageMaker, tetapi dengan subset kemampuan Studio.
Saat mulai mengerjakan inisiatif ML, Anda perlu melakukan analisis data eksplorasi (EDA) atau persiapan data sebelum melanjutkan pembuatan model. Pengatur Data Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi ML melalui antarmuka visual. Data Wrangler mengurangi waktu yang diperlukan untuk menggabungkan dan menyiapkan data untuk ML dari minggu ke menit.
Akselerator utama persiapan fitur di Data Wrangler adalah Kualitas Data dan Laporan Wawasan. Laporan ini memeriksa kualitas data dan membantu mendeteksi ketidaknormalan pada data Anda, sehingga Anda dapat melakukan rekayasa data yang diperlukan untuk memperbaiki set data Anda. Anda dapat menggunakan Kualitas Data dan Laporan Wawasan untuk melakukan analisis data Anda guna mendapatkan wawasan tentang kumpulan data Anda seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda dan membantu Anda mengidentifikasi langkah-langkah persiapan data yang perlu Anda lakukan.
Pengguna Studio Lab dapat memanfaatkan Data Wrangler karena kualitas data dan rekayasa fitur sangat penting untuk kinerja prediktif model Anda. Data Wrangler membantu kualitas data dan rekayasa fitur dengan memberikan wawasan tentang masalah kualitas data dan dengan mudah mengaktifkan iterasi dan rekayasa fitur yang cepat menggunakan UI kode rendah.
Dalam postingan ini, kami menunjukkan cara melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab untuk melakukan pembuatan model.
Ikhtisar solusi
Solusinya mencakup langkah-langkah tingkat tinggi berikut:
- Buat akun AWS dan pengguna admin. Ini adalah prasyarat
- Unduh kumpulan datanya churn.csv.
- Muat kumpulan data ke Layanan Penyimpanan Sederhana Amazon (Amazon S3).
- Buat domain SageMaker Studio dan luncurkan Data Wrangler.
- Impor kumpulan data ke aliran Data Wrangler dari Amazon S3.
- Buat Kualitas Data dan Laporan Wawasan dan buat kesimpulan tentang rekayasa fitur yang diperlukan.
- Lakukan transformasi data yang diperlukan di Data Wrangler.
- Unduh Kualitas Data dan Laporan Wawasan serta kumpulan data yang diubah.
- Unggah data ke proyek Lab Studio untuk pelatihan model.
Diagram berikut menggambarkan alur kerja ini.
Prasyarat
Untuk menggunakan Data Wrangler dan Studio Lab, Anda memerlukan prasyarat berikut:
Bangun alur kerja persiapan data dengan Data Wrangler
Untuk memulai, selesaikan langkah-langkah berikut:
- Unggah kumpulan data Anda ke Amazon S3.
- Di konsol SageMaker, di bawah Panel kontrol di panel navigasi, pilih studio.
- pada Luncurkan aplikasi menu di sebelah profil pengguna Anda, pilih studio.
Setelah Anda berhasil masuk ke Studio, Anda akan melihat lingkungan pengembangan seperti tangkapan layar berikut. - Untuk membuat alur kerja Data Wrangler baru, di File menu, pilih New, Lalu pilih Aliran Data Wrangler.
Langkah pertama dalam Data Wrangler adalah mengimpor data Anda. Anda dapat mengimpor data dari beberapa sumber data, seperti Amazon S3, Amazon Athena, Pergeseran Merah Amazon, Kepingan salju, dan batu bata data. Dalam contoh ini, kami menggunakan Amazon S3. Jika Anda hanya ingin melihat cara kerja Data Wrangler, Anda selalu dapat memilih Gunakan kumpulan data sampel. - Pilih Impor data.
- Pilih Amazon S3.
- Pilih kumpulan data yang Anda unggah dan pilih impor.
Data Wrangler memungkinkan Anda untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. - Untuk mendapatkan wawasan tentang kumpulan data dengan cepat, pilih K . pertama untuk Sampling dan masukkan 50000 untuk Ukuran sampel.
Pahami kualitas data dan dapatkan wawasan
Mari gunakan Data Quality dan Insights Report untuk melakukan analisis data yang kita impor ke Data Wrangler. Anda dapat menggunakan laporan untuk memahami langkah-langkah apa yang perlu Anda ambil untuk membersihkan dan memproses data Anda. Laporan ini memberikan informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda.
- Pilih tanda plus di sebelah Tipe data Dan pilihlah Dapatkan wawasan data.
- Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
- Untuk Kolom sasaran, pilih Mengocok?.
- Untuk Jenis masalahPilih Klasifikasi.
- Pilih membuat.
Anda disajikan dengan laporan terperinci yang dapat Anda tinjau dan unduh. Laporan ini mencakup beberapa bagian seperti model cepat, ringkasan fitur, korelasi fitur, dan wawasan data. Tangkapan layar berikut memberikan contoh bagian ini.
Pengamatan dari laporan
Dari laporan tersebut, kita dapat membuat pengamatan sebagai berikut:
- Tidak ada baris duplikat yang ditemukan.
- Grafik
State
kolom tampaknya cukup merata, sehingga data seimbang dalam hal populasi negara. - Grafik
Phone
kolom menyajikan terlalu banyak nilai unik untuk digunakan secara praktis. Terlalu banyak nilai unik membuat kolom ini tidak berguna. Kita bisa menjatuhkanPhone
kolom dalam transformasi kami. - Berdasarkan bagian korelasi fitur laporan,
Mins
danCharge
sangat berkorelasi. Kita dapat menghapus salah satunya.
Transformasi
Berdasarkan pengamatan kami, kami ingin membuat transformasi berikut:
- Lepaskan
Phone
kolom karena memiliki banyak nilai unik. - Kami juga melihat beberapa fitur yang pada dasarnya memiliki korelasi 100% satu sama lain. Menyertakan pasangan fitur ini dalam beberapa algoritme ML dapat menimbulkan masalah yang tidak diinginkan, sedangkan pada yang lain hanya akan menimbulkan redundansi dan bias kecil. Mari kita hapus satu fitur dari masing-masing pasangan yang sangat berkorelasi:
Day Charge
dari pasangan denganDay Mins
,Night Charge
dari pasangan denganNight Mins
, danIntl Charge
dari pasangan denganIntl Mins
. - mengubah
True
orFalse
dalamChurn
kolom menjadi nilai numerik 1 atau 0.
- Kembali ke aliran data dan pilih tanda plus di sebelah Tipe data.
- Pilih Tambahkan transformasi.
- Pilih Tambahkan langkah.
- Anda dapat mencari transformasi yang Anda cari (dalam kasus kami, kelola kolom).
- Pilih Kelola kolom.
- Untuk Mengubahยธ pilih Jatuhkan kolom.
- Untuk Kolom untuk dijatuhkanยธ pilih
Phone
,Day Charge
,Eve Charge
,Night Charge
, danIntl Charge
. - Pilih Preview, Lalu pilih Memperbarui.
Mari tambahkan transformasi lain untuk melakukan pengkodean kategoris padaChurn?
kolom. - Pilih transformasi Enkode kategoris.
- Untuk Mengubah, pilih Kode ordinal.
- Untuk Kolom masukan, memilih
Churn?
kolom. - Untuk Strategi penanganan tidak valid, pilih Ganti dengan NaN.
- Pilih Preview, Lalu pilih Memperbarui.
Sekarang True
dan False
diubah menjadi 1 dan 0, masing-masing.
Sekarang setelah kita memahami data dengan baik dan telah menyiapkan dan mengubah data untuk pembuatan model, kita dapat memindahkan data ke Studio Lab untuk pembuatan model.
Unggah data ke Studio Lab
Untuk mulai menggunakan data di Studio Lab, selesaikan langkah-langkah berikut:
- Pilih Ekspor data untuk ekspor ke ember S3.
- Untuk Lokasi Amazon S3, masukkan jalur S3 Anda.
- Tentukan jenis file.
- Pilih Ekspor data.
- Setelah Anda mengekspor data, Anda dapat mengunduh data dari bucket S3 ke komputer lokal Anda.
- Sekarang Anda dapat pergi ke Studio Lab dan mengunggah file ke Studio Lab.
Atau, Anda dapat terhubung ke Amazon S3 dari Studio Lab. Untuk informasi lebih lanjut, lihat Gunakan sumber daya eksternal di Amazon SageMaker Studio Lab. - Mari instal SageMaker dan impor Panda.
- Impor semua perpustakaan sesuai kebutuhan.
- Sekarang kita dapat membaca file CSV.
- Ayo cetak
churn
untuk memastikan dataset benar.
Sekarang setelah Anda memiliki kumpulan data yang diproses di Studio Lab, Anda dapat melakukan langkah lebih lanjut yang diperlukan untuk pembuatan model.
Harga Data Wrangler
Anda dapat melakukan semua langkah dalam posting ini untuk EDA atau persiapan data dalam Data Wrangler dan membayar untuk contoh sederhana, pekerjaan, dan harga penyimpanan berdasarkan penggunaan atau konsumsi. Tidak diperlukan biaya di muka atau lisensi.
Membersihkan
Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instans yang dijalankannya untuk menghindari biaya tambahan. Untuk menghindari kehilangan pekerjaan, simpan aliran data Anda sebelum mematikan Data Wrangler.
- Untuk menyimpan aliran data Anda di Studio, pilih File, Lalu pilih Simpan Aliran Data Wrangler.
Data Wrangler secara otomatis menyimpan aliran data Anda setiap 60 detik. - Untuk mematikan instance Data Wrangler, di Studio, pilih Menjalankan Instance dan Kernel.
- Bawah APLIKASI YANG SEDANG BERJALAN, pilih ikon matikan di sebelah
sagemaker-data-wrangler-1.0 app
. - Pilih Matikan semua untuk mengkonfirmasi.
Data Wrangler berjalan pada instance ml.m5.4xlarge. Contoh ini menghilang dari INSTALASI YANG BERJALAN saat Anda mematikan aplikasi Data Wrangler.
Setelah Anda mematikan aplikasi Data Wrangler, itu harus dimulai ulang saat berikutnya Anda membuka file aliran Data Wrangler. Ini bisa memakan waktu beberapa menit.
Kesimpulan
Dalam posting ini, kami melihat bagaimana Anda bisa mendapatkan wawasan tentang kumpulan data Anda, melakukan analisis data eksplorasi, menyiapkan dan mengubah data menggunakan Data Wrangler di dalam Studio, dan mengekspor data yang telah diubah dan disiapkan ke Studio Lab dan melakukan pembuatan model dan langkah-langkah lainnya.
Dengan SageMaker Data Wrangler, Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi dari satu antarmuka visual.
Tentang penulis
Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia sangat menyukai cloud dan machine learning. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.
Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan hasrat untuk merancang, membuat, dan mempromosikan pengalaman Data dan Analisis yang berpusat pada manusia. Dia mendukung pelanggan AWS Strategic dalam transformasi mereka menuju organisasi berbasis data.
James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.
- AI
- ai seni
- generator seni ai
- punya robot
- Amazon SageMaker
- Pengatur Data Amazon SageMaker
- kecerdasan buatan
- sertifikasi kecerdasan buatan
- kecerdasan buatan dalam perbankan
- robot kecerdasan buatan
- robot kecerdasan buatan
- perangkat lunak kecerdasan buatan
- Pembelajaran Mesin AWS
- blockchain
- konferensi blockchain
- kecerdasan
- kecerdasan buatan percakapan
- konferensi kripto
- dall's
- belajar mendalam
- google itu
- Mesin belajar
- plato
- plato ai
- Kecerdasan Data Plato
- Permainan Plato
- Data Plato
- permainan plato
- skala ai
- sintaksis
- zephyrnet.dll