Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gunakan Kanvas Amazon SageMaker untuk analisis data eksplorasi

Analisis data eksplorasi (EDA) adalah tugas umum yang dilakukan oleh analis bisnis untuk menemukan pola, memahami hubungan, memvalidasi asumsi, dan mengidentifikasi anomali dalam data mereka. Dalam pembelajaran mesin (ML), penting untuk terlebih dahulu memahami data dan hubungannya sebelum masuk ke pembuatan model. Siklus pengembangan ML tradisional terkadang dapat memakan waktu berbulan-bulan dan memerlukan ilmu data tingkat lanjut dan keterampilan teknik ML, sedangkan solusi ML tanpa kode dapat membantu perusahaan mempercepat pengiriman solusi ML hingga berhari-hari atau bahkan berjam-jam.

Kanvas Amazon SageMaker adalah alat ML tanpa kode yang membantu analis bisnis menghasilkan prediksi ML yang akurat tanpa harus menulis kode atau tanpa memerlukan pengalaman ML apa pun. Canvas menyediakan antarmuka visual yang mudah digunakan untuk memuat, membersihkan, dan mengubah set data, diikuti dengan membangun model ML dan menghasilkan prediksi yang akurat.

Dalam postingan ini, kami membahas cara melakukan EDA untuk mendapatkan pemahaman yang lebih baik tentang data Anda sebelum membuat model ML Anda, berkat visualisasi canggih bawaan Canvas. Visualisasi ini membantu Anda menganalisis hubungan antara fitur dalam kumpulan data Anda dan memahami data Anda dengan lebih baik. Ini dilakukan secara intuitif, dengan kemampuan untuk berinteraksi dengan data dan menemukan wawasan yang mungkin luput dari perhatian dengan kueri ad hoc. Mereka dapat dibuat dengan cepat melalui 'Data visualizer' dalam Canvas sebelum membuat dan melatih model ML.

Ikhtisar solusi

Visualisasi ini menambah berbagai kemampuan untuk persiapan dan eksplorasi data yang sudah ditawarkan oleh Canvas, termasuk kemampuan untuk memperbaiki nilai yang hilang dan mengganti outlier; memfilter, menggabungkan, dan memodifikasi kumpulan data; dan mengekstrak nilai waktu tertentu dari cap waktu. Untuk mempelajari lebih lanjut tentang bagaimana Canvas dapat membantu Anda membersihkan, mengubah, dan menyiapkan kumpulan data Anda, lihat Siapkan data dengan transformasi lanjutan.

Untuk kasus penggunaan kami, kami melihat mengapa pelanggan berpindah dalam bisnis apa pun dan menggambarkan bagaimana EDA dapat membantu dari sudut pandang seorang analis. Dataset yang kami gunakan dalam posting ini adalah dataset sintetis dari operator telepon seluler telekomunikasi untuk prediksi churn pelanggan yang dapat Anda unduh (churn.csv), atau Anda membawa set data Anda sendiri untuk bereksperimen. Untuk petunjuk tentang mengimpor dataset Anda sendiri, lihat Mengimpor data di Amazon SageMaker Canvas.

Prasyarat

Ikuti instruksi di Prasyarat untuk menyiapkan Kanvas Amazon SageMaker sebelum Anda melangkah lebih jauh.

Impor kumpulan data Anda ke Canvas

Untuk mengimpor kumpulan data sampel ke Canvas, selesaikan langkah-langkah berikut:

  1. Masuk ke Canvas sebagai pengguna bisnis.Pertama, kami mengunggah dataset yang disebutkan sebelumnya dari komputer lokal kami ke Canvas. Jika Anda ingin menggunakan sumber lain, seperti Pergeseran Merah Amazon, mengacu pada Hubungkan ke sumber data eksternal.
  2. Pilih impor.Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  3. Pilih Unggah, Lalu pilih Pilih file dari komputer Anda.
  4. Pilih kumpulan data Anda (churn.csv) dan pilih Impor data.Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  5. Pilih kumpulan data dan pilih Buat model.Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  6. Untuk Nama model, masukkan nama (untuk posting ini, kami telah memberikan nama prediksi Churn).
  7. Pilih membuat.
    Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Segera setelah Anda memilih kumpulan data, Anda akan disajikan dengan gambaran umum yang menguraikan tipe data, nilai yang hilang, nilai yang tidak cocok, nilai unik, dan nilai rata-rata atau mode dari masing-masing kolom.Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Dari perspektif EDA, Anda dapat mengamati tidak ada nilai yang hilang atau tidak cocok dalam kumpulan data. Sebagai analis bisnis, Anda mungkin ingin mendapatkan wawasan awal tentang model yang dibuat bahkan sebelum memulai eksplorasi data untuk mengidentifikasi bagaimana model akan berkinerja dan faktor apa yang berkontribusi pada kinerja model. Canvas memberi Anda kemampuan untuk mendapatkan wawasan dari data Anda sebelum Anda membuat model dengan terlebih dahulu mempratinjau model.
  8. Sebelum Anda melakukan eksplorasi data, pilih Pratinjau model.Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  9. Pilih kolom yang akan diprediksi (churn). Kanvas secara otomatis mendeteksi ini adalah prediksi dua kategori.
  10. Pilih Pratinjau model. SageMaker Canvas menggunakan subset data Anda untuk membuat model dengan cepat guna memeriksa apakah data Anda siap menghasilkan prediksi yang akurat. Dengan menggunakan model sampel ini, Anda dapat memahami akurasi model saat ini dan dampak relatif dari setiap kolom pada prediksi.

Tangkapan layar berikut menunjukkan pratinjau kami.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pratinjau model menunjukkan bahwa model memprediksi target yang benar (churn?) 95.6% setiap saat. Anda juga dapat melihat dampak kolom awal (pengaruh setiap kolom pada kolom target). Mari lakukan beberapa eksplorasi data, visualisasi, dan transformasi, lalu lanjutkan untuk membangun model.

Eksplorasi data

Canvas sudah menyediakan beberapa visualisasi dasar umum, seperti distribusi data dalam tampilan grid di Membangun tab. Ini bagus untuk mendapatkan ikhtisar data tingkat tinggi, memahami bagaimana data didistribusikan, dan mendapatkan ikhtisar ringkasan kumpulan data.

Sebagai analis bisnis, Anda mungkin perlu mendapatkan wawasan tingkat tinggi tentang bagaimana data didistribusikan serta bagaimana distribusi mencerminkan kolom target (churn) untuk dengan mudah memahami hubungan data sebelum membangun model. Anda sekarang dapat memilih Tampilan kotak untuk mendapatkan gambaran tentang distribusi data.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tangkapan layar berikut menunjukkan ikhtisar distribusi kumpulan data.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kita dapat melakukan pengamatan berikut:

  • Telepon mengambil terlalu banyak nilai unik untuk digunakan secara praktis. Kami tahu bahwa telepon adalah ID pelanggan dan tidak ingin membuat model yang mungkin mempertimbangkan pelanggan tertentu, tetapi mempelajari secara lebih umum apa yang dapat menyebabkan churn. Anda dapat menghapus variabel ini.
  • Sebagian besar fitur numerik didistribusikan dengan baik, mengikuti: Gaussian kurva lonceng. Di ML, Anda ingin data terdistribusi secara normal karena variabel apa pun yang menunjukkan distribusi normal dapat diramalkan dengan akurasi yang lebih tinggi.

Mari masuk lebih dalam dan lihat visualisasi lanjutan yang tersedia di Canvas.

Visualisasi data

Sebagai analis bisnis, Anda ingin melihat apakah ada hubungan antara elemen data, dan bagaimana mereka terkait dengan churn. Dengan Canvas, Anda dapat menjelajahi dan memvisualisasikan data Anda, yang membantu Anda mendapatkan wawasan lanjutan tentang data Anda sebelum membangun model ML Anda. Anda dapat memvisualisasikan menggunakan plot sebar, diagram batang, dan plot kotak, yang dapat membantu Anda memahami data dan menemukan hubungan antara fitur yang dapat memengaruhi akurasi model.

Untuk mulai membuat visualisasi Anda, selesaikan langkah-langkah berikut:

  • pada Membangun tab aplikasi Canvas, pilih Visualisator data.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Akselerator utama visualisasi di Canvas adalah Visualisator data. Mari kita ubah ukuran sampel untuk mendapatkan perspektif yang lebih baik.

  • Pilih jumlah baris di sebelah Contoh visualisasi.
  • Gunakan penggeser untuk memilih ukuran sampel yang Anda inginkan.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  • Pilih Memperbarui untuk mengkonfirmasi perubahan ukuran sampel Anda.

Anda mungkin ingin mengubah ukuran sampel berdasarkan kumpulan data Anda. Dalam beberapa kasus, Anda mungkin memiliki beberapa ratus hingga beberapa ribu baris tempat Anda dapat memilih seluruh kumpulan data. Dalam beberapa kasus, Anda mungkin memiliki beberapa ribu baris, dalam hal ini Anda dapat memilih beberapa ratus atau beberapa ribu baris berdasarkan kasus penggunaan Anda.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sebuah plot pencar menunjukkan hubungan antara dua variabel kuantitatif diukur untuk individu yang sama. Dalam kasus kami, penting untuk memahami hubungan antara nilai untuk memeriksa korelasi.

Karena kami memiliki Panggilan, Menit, dan Biaya, kami akan memplot korelasi di antara mereka untuk Siang, Sore, dan Malam.

Pertama, mari kita buat a sebar plot antara Day Charge vs. Day Mins.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kita dapat mengamati bahwa saat Day Mins meningkat, Day Charge juga meningkat.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Hal yang sama berlaku untuk panggilan malam.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Panggilan malam juga memiliki pola yang sama.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Karena menit dan muatan tampaknya meningkat secara linier, Anda dapat mengamati bahwa keduanya memiliki korelasi yang tinggi satu sama lain. Menyertakan pasangan fitur ini dalam beberapa algoritme ML dapat mengambil penyimpanan tambahan dan mengurangi kecepatan pelatihan, dan memiliki informasi serupa di lebih dari satu kolom dapat menyebabkan model terlalu menekankan dampak dan menyebabkan bias yang tidak diinginkan dalam model. Mari kita hapus satu fitur dari masing-masing pasangan yang sangat berkorelasi: Day Charge dari pasangan dengan Day Mins, Night Charge dari pasangan dengan Night Mins, dan Intl Charge dari pasangan dengan Intl Mins.

Keseimbangan dan variasi data

Diagram batang adalah plot antara variabel kategori pada sumbu x dan variabel numerik pada sumbu y untuk mengeksplorasi hubungan antara kedua variabel. Mari buat diagram batang untuk melihat bagaimana panggilan didistribusikan di seluruh kolom target kami, Churn untuk Benar dan Salah. Memilih Grafik batang dan seret dan lepas panggilan harian dan churn masing-masing ke sumbu y dan sumbu x.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang, mari kita buat diagram batang yang sama untuk panggilan malam vs churn.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Selanjutnya, mari buat diagram batang untuk panggilan malam vs. churn.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sepertinya ada perbedaan perilaku antara pelanggan yang telah churn dan yang tidak.

Plot kotak berguna karena menunjukkan perbedaan perilaku data menurut kelas (churn atau tidak). Karena kita akan memprediksi churn (kolom target), mari buat plot kotak dari beberapa fitur terhadap kolom target kita untuk menyimpulkan statistik deskriptif pada dataset seperti mean, max, min, median, dan outlier.

Pilih Petak kotak dan seret dan lepas Day menit dan Churn masing-masing ke sumbu y dan sumbu x.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda juga dapat mencoba pendekatan yang sama ke kolom lain terhadap kolom target kami (churn).

Sekarang mari kita buat plot kotak menit hari terhadap panggilan layanan pelanggan untuk memahami bagaimana panggilan layanan pelanggan mencakup nilai menit hari. Anda dapat melihat bahwa panggilan layanan pelanggan tidak memiliki ketergantungan atau korelasi pada nilai menit hari.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dari pengamatan kami, kami dapat menentukan bahwa dataset cukup seimbang. Kami ingin data didistribusikan secara merata di antara nilai benar dan salah sehingga model tidak bias terhadap satu nilai.

Transformasi

Berdasarkan pengamatan kami, kami menghapus kolom Telepon karena itu hanya nomor akun dan kolom Day Charge, Eve Charge, Night Charge karena mengandung informasi yang tumpang tindih seperti kolom menit, tetapi kami dapat menjalankan pratinjau lagi untuk mengonfirmasi.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Setelah analisis dan transformasi data, mari kita lihat kembali modelnya.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda dapat mengamati bahwa model estimasi akurasi berubah dari 95.6% menjadi 93.6% (ini bisa bervariasi), namun dampak kolom (fitur penting) untuk kolom tertentu telah banyak berubah, yang meningkatkan kecepatan pelatihan serta pengaruh kolom pada prediksi saat kita pindah ke langkah berikutnya dari pembuatan model. Dataset kami tidak memerlukan transformasi tambahan, tetapi jika perlu, Anda dapat memanfaatkan Transformasi data ML untuk membersihkan, mengubah, dan menyiapkan data Anda untuk pembuatan model.

Bangun model

Anda sekarang dapat melanjutkan untuk membangun model dan menganalisis hasil. Untuk informasi lebih lanjut, lihat Memprediksi churn pelanggan dengan pembelajaran mesin tanpa kode menggunakan Amazon SageMaker Canvas.

Membersihkan

Untuk menghindari timbulnya masa depan biaya sesi, log out dari Kanvas.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kesimpulan

Dalam postingan ini, kami menunjukkan bagaimana Anda dapat menggunakan kemampuan visualisasi Canvas untuk EDA untuk lebih memahami data Anda sebelum membuat model, membuat model ML yang akurat, dan menghasilkan prediksi menggunakan antarmuka tanpa kode, visual, tunjuk dan klik.


Tentang Penulis

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia bersemangat tentang cloud dan pembelajaran mesin. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Rahul Nabera adalah Konsultan Analisis Data di AWS Professional Services. Pekerjaannya saat ini berfokus pada memungkinkan pelanggan membangun data dan beban kerja pembelajaran mesin mereka di AWS. Di waktu luangnya, ia menikmati bermain kriket dan bola voli.

Gunakan Amazon SageMaker Canvas untuk analisis data eksplorasi PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Raviteja Yelamanchili adalah Arsitek Solusi Perusahaan dengan Amazon Web Services yang berbasis di New York. Dia bekerja dengan pelanggan perusahaan jasa keuangan besar untuk merancang dan menerapkan aplikasi yang sangat aman, skalabel, andal, dan hemat biaya di cloud. Dia membawa lebih dari 11 tahun manajemen risiko, konsultasi teknologi, analitik data, dan pengalaman pembelajaran mesin. Ketika dia tidak membantu pelanggan, dia menikmati bepergian dan bermain PS5.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS