Memprediksi Churn Pelanggan Dengan Pembelajaran Mesin Tanpa Kode Menggunakan Kanvas Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Memahami perilaku pelanggan adalah hal utama untuk setiap bisnis saat ini. Memperoleh wawasan tentang mengapa dan bagaimana pelanggan membeli dapat membantu meningkatkan pendapatan. Tetapi kehilangan pelanggan (juga disebut churn pelanggan) selalu merupakan risiko, dan wawasan tentang mengapa pelanggan pergi bisa sama pentingnya untuk mempertahankan pendapatan dan keuntungan. Pembelajaran mesin (ML) dapat membantu dengan wawasan, tetapi hingga saat ini Anda membutuhkan pakar ML untuk membangun model untuk memprediksi churn, kekurangannya dapat menunda tindakan yang didorong oleh wawasan oleh bisnis untuk mempertahankan pelanggan.

Dalam postingan ini, kami menunjukkan kepada Anda bagaimana analis bisnis dapat membangun model ML churn pelanggan dengan Kanvas Amazon SageMaker, tidak diperlukan kode. Canvas memberi analis bisnis antarmuka tunjuk dan klik visual yang memungkinkan Anda membuat model dan menghasilkan prediksi ML yang akurat sendiri—tanpa memerlukan pengalaman ML atau harus menulis satu baris kode pun.

Ikhtisar solusi

Untuk posting ini, kami mengambil peran sebagai analis pemasaran di departemen pemasaran operator telepon seluler. Kami telah ditugasi untuk mengidentifikasi pelanggan yang berpotensi berisiko mengalami churning. Kami memiliki akses ke penggunaan layanan dan data perilaku pelanggan lainnya, dan ingin tahu apakah data ini dapat membantu menjelaskan alasan pelanggan pergi. Jika kami dapat mengidentifikasi faktor yang menjelaskan churn, kami dapat mengambil tindakan korektif untuk mengubah perilaku yang diprediksi, seperti menjalankan kampanye retensi yang ditargetkan.

Untuk melakukan ini, kami menggunakan data yang kami miliki dalam file CSV, yang berisi informasi tentang penggunaan dan penghentian pelanggan. Kami menggunakan Canvas untuk melakukan langkah-langkah berikut:

Impor kumpulan data churn dari Layanan Penyimpanan Sederhana Amazon (Amazon S3).
Latih dan bangun model churn.
Analisis hasil model.
Uji prediksi terhadap model.

Untuk dataset kami, kami menggunakan a kumpulan data sintetis dari operator telepon seluler telekomunikasi. Kumpulan data sampel ini berisi 5,000 catatan, di mana setiap catatan menggunakan 21 atribut untuk menggambarkan profil pelanggan. Atributnya adalah sebagai berikut:

Negara – Negara bagian AS tempat pelanggan tinggal, ditunjukkan dengan singkatan dua huruf; misalnya, OH atau NJ
Panjang Akun – Jumlah hari akun ini aktif
Kode area – Kode area tiga digit nomor telepon pelanggan
Nomor Hp / Telephone – Nomor telepon tujuh digit yang tersisa
Rencana Internasional – Apakah pelanggan memiliki paket panggilan internasional (ya/tidak)
Paket VMail – Apakah pelanggan memiliki fitur pesan suara (ya/tidak)
Pesan VMail – Jumlah rata-rata pesan suara per bulan
menit hari – Jumlah total menit panggilan yang digunakan sepanjang hari
Panggilan Siang – Jumlah total panggilan yang dilakukan pada siang hari
Biaya Harian – Biaya panggilan siang hari yang ditagih
Hawa Mins, Panggilan Malam, Biaya Malam – Biaya yang ditagih untuk panggilan malam
menit malam, Panggilan Malam, Pengisian Malam – Biaya yang ditagih untuk panggilan malam hari
Menit Internasional, Panggilan Internasional, Biaya Intl – Biaya yang ditagih untuk panggilan internasional
Panggilan CustServ – Jumlah panggilan yang dilakukan ke layanan pelanggan
Mengocok? – Apakah pelanggan meninggalkan layanan (benar/salah)

Atribut terakhir, Churn?, adalah atribut yang kita inginkan untuk diprediksi oleh model ML. Atribut target adalah biner, artinya model kami memprediksi output sebagai salah satu dari dua kategori (True or False).

Prasyarat

Admin cloud dengan Akun AWS dengan izin yang sesuai diperlukan untuk menyelesaikan prasyarat berikut:

Terapkan file Amazon SageMaker Untuk instruksi, lihat Masuk ke Domain Amazon SageMaker.
Menyebarkan Kanvas. Untuk petunjuk, lihat Menyiapkan dan mengelola Amazon SageMaker Canvas (untuk administrator TI).
Mengonfigurasi kebijakan berbagi sumber daya lintas asal (CORS) untuk Canvas. Untuk petunjuk, lihat Berikan pengguna Anda kemampuan untuk mengunggah file lokal.

Buat model pergantian pelanggan

Pertama, mari kita unduh keluarkan kumpulan data dan tinjau file untuk memastikan semua data ada di sana. Kemudian selesaikan langkah-langkah berikut:

Masuk ke Konsol Manajemen AWS, menggunakan akun dengan izin yang sesuai untuk mengakses Canvas.
Masuk ke konsol Canvas.

Di sinilah kita dapat mengelola kumpulan data dan membuat model.

Pilih impor.

Pilih Tombol Impor Kanvas

Pilih Unggah Dan pilih churn.csv file.
Pilih Impor data untuk mengunggahnya ke Canvas.

Kanvas pilih data dari s3

Proses impor memakan waktu sekitar 10 detik (ini dapat bervariasi tergantung pada ukuran set data). Setelah selesai, kita bisa melihat dataset ada di Ready status.

Set Data Siap Kanvas

Untuk mempratinjau 100 baris pertama dari kumpulan data, arahkan mouse ke ikon mata.

Kumpulan Data Tampilan Kanvas

Pratinjau kumpulan data muncul. Di sini kami dapat memverifikasi bahwa data kami benar.

Data Verifikasi Kanvas

Setelah kami mengonfirmasi bahwa dataset yang diimpor sudah siap, kami membuat model kami.

Pilih Model baru.

Kanvas Model Baru

Pilih kumpulan data churn.csv dan pilih Pilih set data.

Kumpulan Data Pilihan Kanvas

Sekarang kita mengkonfigurasi proses model build.

Untuk Kolom target, memilih Churn? kolom.

Untuk Tipe model, Canvas secara otomatis merekomendasikan tipe model, dalam hal ini 2 kategori prediksi (apa yang disebut ilmuwan data sebagai klasifikasi biner). Ini cocok untuk kasus penggunaan kami karena kami hanya memiliki dua kemungkinan nilai prediksi: True or False, jadi kami mengikuti rekomendasi yang dibuat Canvas.

Model Pembuatan Kanvas

Kami sekarang memvalidasi beberapa asumsi. Kami ingin melihat sekilas apakah kolom target kami dapat diprediksi oleh kolom lain. Kita bisa mendapatkan pandangan cepat ke dalam perkiraan akurasi model dan dampak kolom (perkiraan pentingnya setiap kolom dalam memprediksi kolom target).

Pilih semua 21 kolom dan pilih Pratinjau model.

Fitur ini menggunakan subset dari dataset kami dan hanya satu pass pada pemodelan. Untuk kasus penggunaan kami, pembuatan model pratinjau membutuhkan waktu sekitar 2 menit.

Model Pratinjau Kanvas

Seperti yang ditunjukkan pada tangkapan layar berikut, Phone dan State kolom memiliki dampak yang jauh lebih kecil pada prediksi kami. Kami ingin berhati-hati saat menghapus input teks karena dapat berisi fitur kategoris diskrit penting yang berkontribusi pada prediksi kami. Di sini, nomor telepon hanya setara dengan nomor akun—bukan nilai dalam memprediksi kemungkinan churn akun lain, dan status pelanggan tidak terlalu memengaruhi model kami.

Kami menghapus kolom ini karena tidak memiliki fitur utama yang penting.
Setelah kami menghapus Phone dan State kolom, mari jalankan pratinjau lagi.

Seperti yang ditunjukkan pada tangkapan layar berikut, akurasi model meningkat sebesar 0.1%. Model pratinjau kami memiliki perkiraan akurasi 95.9%, dan kolom dengan dampak terbesar adalah Night Calls, Eve Mins, dan Night Charge. Ini memberi kami wawasan tentang kolom apa yang paling memengaruhi kinerja model kami. Di sini kita perlu berhati-hati saat melakukan pemilihan fitur karena jika satu fitur sangat berdampak pada hasil model, itu adalah indikator utama dari kebocoran target, dan fitur tersebut tidak akan tersedia pada saat prediksi. Dalam hal ini, beberapa kolom menunjukkan dampak yang sangat mirip, jadi kami terus membangun model kami.

Rekayasa Fitur Kanvas Setelah

Canvas menawarkan dua opsi build:

bangunan standar – Membangun model terbaik dari proses yang dioptimalkan yang didukung oleh ML Otomatis; kecepatan ditukar dengan akurasi terbesar
Membangun cepat – Membangun model dalam waktu singkat dibandingkan dengan build standar; akurasi potensial ditukar dengan kecepatan.

Untuk posting ini, kami memilih bangunan standar pilihan karena kami ingin memiliki model terbaik dan kami bersedia menghabiskan waktu tambahan untuk menunggu hasilnya.

Pembuatan Standar Kanvas

Proses pembuatan bisa memakan waktu 2–4 jam. Selama waktu ini, Canvas menguji ratusan calon pipeline, memilih model terbaik untuk disajikan kepada kami. Pada tangkapan layar berikut, kita dapat melihat waktu dan kemajuan pembangunan yang diharapkan.

Model Analisis Kanvas

Evaluasi kinerja model

Ketika proses pembuatan model selesai, model memprediksi churn 97.9% dari waktu. Ini tampaknya baik-baik saja, tetapi sebagai analis kami ingin menyelam lebih dalam dan melihat apakah kami dapat mempercayai model untuk membuat keputusan berdasarkan itu. pada Scoring tab, kami dapat meninjau plot visual dari prediksi kami yang dipetakan ke hasil mereka. Hal ini memungkinkan kita wawasan yang lebih dalam model kami.

Canvas memisahkan set data menjadi set pelatihan dan pengujian. Dataset pelatihan adalah data yang digunakan Canvas untuk membangun model. Test set digunakan untuk melihat apakah model bekerja dengan baik dengan data baru. Diagram Sankey pada tangkapan layar berikut menunjukkan bagaimana model dilakukan pada set pengujian. Untuk mempelajari lebih lanjut, lihat Mengevaluasi Kinerja Model Anda di Kanvas Amazon SageMaker.

Untuk mendapatkan wawasan yang lebih mendetail di luar apa yang ditampilkan dalam diagram Sankey, analis bisnis dapat menggunakan a matriks kebingungan analisis untuk solusi bisnis mereka. Misalnya, kami ingin lebih memahami kemungkinan model membuat prediksi yang salah. Kita dapat melihat ini di diagram Sankey, tetapi ingin lebih banyak wawasan, jadi kami memilih Metrik lanjutan. Kami disajikan dengan matriks kebingungan, yang menampilkan kinerja model dalam format visual dengan nilai-nilai berikut, khusus untuk kelas positif—kami mengukur berdasarkan apakah mereka benar-benar akan churn, jadi kelas positif kami adalah True dalam contoh ini:

Benar Positif (TP) - Jumlah True hasil yang diprediksi dengan benar sebagai True
Negatif Benar (TN) - Jumlah False hasil yang diprediksi dengan benar sebagai False
Positif Palsu (FP) - Jumlah False hasil yang salah diprediksi sebagai True
Negatif Palsu (FN) - Jumlah True hasil yang salah diprediksi sebagai False

Kita dapat menggunakan bagan matriks ini untuk menentukan tidak hanya seberapa akurat model kita, tetapi juga ketika salah, seberapa sering hal itu mungkin terjadi dan seberapa salahnya.

Matriks F1 Kanvas

Metrik lanjutan terlihat bagus. Kita bisa mempercayai hasil modelnya. Kami melihat positif palsu dan negatif palsu yang sangat rendah. Ini adalah jika model berpikir pelanggan dalam kumpulan data akan churn dan sebenarnya tidak (positif palsu), atau jika model berpikir pelanggan akan churn dan mereka benar-benar melakukannya (negatif palsu). Angka yang tinggi untuk keduanya mungkin membuat kita berpikir lebih banyak jika kita dapat menggunakan model untuk membuat keputusan.

Ayo kembali ke Ringkasan tab, untuk meninjau dampak setiap kolom. Informasi ini dapat membantu tim pemasaran mendapatkan wawasan yang mengarah pada pengambilan tindakan untuk mengurangi churn pelanggan. Misalnya, kita dapat melihat bahwa keduanya rendah dan tinggi CustServ Calls meningkatkan kemungkinan churn. Tim pemasaran dapat mengambil tindakan untuk mencegah churn pelanggan berdasarkan pembelajaran ini. Contohnya termasuk membuat FAQ mendetail di situs web untuk mengurangi panggilan layanan pelanggan, dan menjalankan kampanye pendidikan dengan pelanggan di FAQ yang dapat menjaga keterlibatan.

Model kami terlihat cukup akurat. Kita bisa langsung melakukan prediksi interaktif di Meramalkan tab, baik dalam prediksi batch atau tunggal (real-time). Dalam contoh ini, kami membuat beberapa perubahan pada nilai kolom tertentu dan melakukan prediksi waktu nyata. Kanvas menunjukkan kepada kita hasil prediksi beserta tingkat kepercayaannya.

Kanvas Prediksi Inferensi

Katakanlah kita memiliki pelanggan yang sudah ada yang memiliki penggunaan berikut: Night Mins adalah 40 dan Eve Mins adalah 40. Kami dapat menjalankan prediksi, dan model kami mengembalikan skor kepercayaan 93.2% bahwa pelanggan ini akan churn (True). Kami sekarang mungkin memilih untuk memberikan diskon promosi untuk mempertahankan pelanggan ini.

Menjalankan satu prediksi sangat bagus untuk analisis bagaimana-jika individu, tetapi kita juga perlu menjalankan prediksi pada banyak record sekaligus. Kanvas mampu menjalankan prediksi batch, yang memungkinkan Anda menjalankan prediksi dalam skala besar.

Kesimpulan

Dalam posting ini, kami menunjukkan bagaimana seorang analis bisnis dapat membuat model churn pelanggan dengan SageMaker Canvas menggunakan data sampel. Canvas memungkinkan analis bisnis Anda membuat model ML yang akurat dan menghasilkan prediksi menggunakan antarmuka tanpa kode, visual, tunjuk dan klik. Seorang analis pemasaran sekarang dapat menggunakan informasi ini untuk menjalankan kampanye retensi yang ditargetkan dan menguji strategi kampanye baru lebih cepat, yang mengarah pada pengurangan churn pelanggan.

Analis dapat membawa ini ke tingkat berikutnya dengan berbagi model mereka dengan rekan ilmuwan data. Ilmuwan data dapat melihat model Canvas di Studio Amazon SageMaker, di mana mereka dapat menjelajahi pilihan yang dibuat Canvas AutoML, memvalidasi hasil model, dan bahkan membuat model dengan beberapa klik. Hal ini dapat mempercepat penciptaan nilai berbasis ML dan membantu meningkatkan hasil yang lebih cepat dengan lebih cepat.

Untuk mempelajari lebih lanjut tentang menggunakan Canvas, lihat Bangun, Bagikan, Terapkan: bagaimana analis bisnis dan ilmuwan data mencapai time-to-market yang lebih cepat menggunakan ML tanpa kode dan Amazon SageMaker Canvas. Untuk informasi selengkapnya tentang membuat model ML dengan solusi tanpa kode, lihat Mengumumkan Amazon SageMaker Canvas – Kemampuan Machine Learning Visual, Tanpa Kode untuk Analis Bisnis.

tentang Penulis

Henry Robalino adalah Arsitek Solusi di AWS, berbasis di NJ. Dia bersemangat tentang cloud dan pembelajaran mesin, dan peran yang dapat mereka mainkan di masyarakat. Dia mencapai ini dengan bekerja dengan pelanggan untuk membantu mereka mencapai tujuan bisnis mereka menggunakan AWS Cloud. Di luar pekerjaan, Anda dapat menemukan Henry bepergian atau menjelajahi alam bebas dengan putri bulunya, Arly.

Memprediksi churn pelanggan dengan pembelajaran mesin tanpa kode menggunakan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Chao Ran Wang adalah Arsitek Solusi di AWS, yang berbasis di Dallas, TX. Dia telah bekerja di AWS sejak lulus dari University of Texas di Dallas pada tahun 2016 dengan gelar master di bidang Ilmu Komputer. Chaoran membantu pelanggan membangun aplikasi yang skalabel, aman, dan hemat biaya serta menemukan solusi untuk memecahkan tantangan bisnis mereka di AWS Cloud. Di luar pekerjaan, Chaoran suka menghabiskan waktu bersama keluarga dan dua anjingnya, Biubiu dan Coco.

Stempel Waktu: 5 Mei 2022

Stempel Waktu: Agustus 2, 2023

Diterbitkan Ulang Oleh Plato

Hubungkan Amazon EMR dan RStudio di Amazon SageMaker

Memperkenalkan Pengunggah Dokumen Massal Amazon Texttract untuk evaluasi dan analisis yang disempurnakan | Layanan Web Amazon

Bangun solusi pemeliharaan prediktif dengan Amazon Kinesis, AWS Glue, dan Amazon SageMaker

Mengamankan URL yang telah ditetapkan Amazon SageMaker Studio Bagian 1: Infrastruktur dasar

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun