Buat Prediksi Batch Dengan Amazon SageMaker Autopilot

Diterbitkan Ulang Oleh Plato

Followers: 0

Autopilot Amazon SageMaker adalah solusi pembelajaran mesin otomatis (AutoML) yang melakukan semua tugas yang Anda perlukan untuk menyelesaikan alur kerja pembelajaran mesin (ML) ujung ke ujung. Ini mengeksplorasi dan menyiapkan data Anda, menerapkan algoritme yang berbeda untuk menghasilkan model, dan secara transparan memberikan wawasan model dan laporan yang dapat dijelaskan untuk membantu Anda menginterpretasikan hasilnya. Autopilot juga dapat membuat titik akhir waktu nyata untuk inferensi online. Anda dapat mengakses fitur sekali klik Autopilot di Studio Amazon SageMaker atau dengan menggunakan AWS SDK untuk Python (Boto3) atau SageMaker Python SDK.

Dalam posting ini, kami menunjukkan cara membuat prediksi batch pada dataset yang tidak berlabel menggunakan model yang dilatih Autopilot. Kami menggunakan kumpulan data yang dibuat secara sintetis yang menunjukkan jenis fitur yang biasanya Anda lihat saat memprediksi churn pelanggan.

Ikhtisar solusi

Sekumpulan inferensi, atau Pengunjung inferensi, adalah proses menghasilkan prediksi pada sekumpulan pengamatan. Inferensi batch mengasumsikan Anda tidak memerlukan respons langsung terhadap permintaan prediksi model, seperti yang Anda lakukan saat menggunakan titik akhir model real-time online. Prediksi offline cocok untuk kumpulan data yang lebih besar dan dalam kasus di mana Anda dapat menunggu beberapa menit atau jam untuk mendapatkan tanggapan. Sebaliknya, secara online inferensi menghasilkan prediksi ML secara real time, dan secara tepat disebut sebagai real-time kesimpulan atau dinamis kesimpulan. Biasanya, prediksi ini dihasilkan pada satu pengamatan data saat runtime.

Kehilangan pelanggan mahal untuk bisnis apa pun. Mengidentifikasi pelanggan yang tidak senang sejak dini memberi Anda kesempatan untuk menawarkan insentif kepada mereka untuk tetap tinggal. Operator seluler memiliki data pelanggan historis yang menunjukkan mereka yang telah berhenti dan mereka yang telah mempertahankan layanan. Kami dapat menggunakan informasi historis ini untuk membuat model guna memprediksi apakah pelanggan akan melakukan churn menggunakan ML.

Setelah kami melatih model ML, kami dapat meneruskan informasi profil pelanggan arbitrer (informasi profil yang sama yang kami gunakan untuk pelatihan) ke model, dan membuat model memprediksi apakah pelanggan akan churn atau tidak. Kumpulan data yang digunakan untuk posting ini di-host di bawah folder sagemaker-sample-files di Layanan Penyimpanan Sederhana Amazon (Amazon S3) ember publik, yang dapat Anda unduh. Ini terdiri dari 5,000 catatan, di mana setiap catatan menggunakan 21 atribut untuk menggambarkan profil pelanggan untuk operator seluler AS yang tidak dikenal. Atributnya adalah sebagai berikut:

Negara – negara bagian AS tempat pelanggan tinggal, ditunjukkan dengan singkatan dua huruf; misalnya, TX atau CA
Panjang Akun – Jumlah hari akun ini aktif
Kode area – Kode area tiga digit dari nomor telepon pelanggan yang sesuai
Nomor Hp / Telephone – Sisa nomor telepon tujuh digit
Rencana Internasional – Memiliki paket panggilan internasional: Ya/Tidak
Paket VMail – Memiliki fitur pesan suara: Ya/Tidak
Pesan VMail – Jumlah rata-rata pesan suara per bulan
menit hari – Jumlah total menit panggilan yang digunakan sepanjang hari
Panggilan Siang – Jumlah total panggilan yang dilakukan pada siang hari
Biaya Harian – Biaya panggilan siang hari yang ditagih
Menit Malam, Panggilan Malam, Biaya Malam – Biaya yang ditagih untuk panggilan yang dilakukan pada malam hari
Menit Malam, Panggilan Malam, Biaya Malam – Biaya yang ditagih untuk panggilan yang dilakukan pada malam hari
Menit Internasional, Panggilan Internasional, Biaya Internasional – Biaya yang ditagih untuk panggilan internasional
Panggilan CustServ – Jumlah panggilan yang dilakukan ke Layanan Pelanggan
Mengocok? – Pelanggan meninggalkan layanan: Benar/Salah

Atribut terakhir, Churn?, adalah atribut target yang kita inginkan untuk diprediksi oleh model ML. Karena atribut target adalah biner, model kami melakukan prediksi biner, juga dikenal sebagai klasifikasi biner.

keluarkan kumpulan data

Prasyarat

Unduh kumpulan data ke lingkungan pengembangan lokal Anda dan jelajahi dengan menjalankan perintah salin S3 berikut dengan Antarmuka Baris Perintah AWS (AWS CLI):

$ aws s3 cp s3://sagemaker-sample-files/datasets/tabular/synthetic/churn.txt ./

Anda kemudian dapat menyalin dataset ke bucket S3 dalam akun AWS Anda sendiri. Ini adalah lokasi input untuk Autopilot. Anda dapat menyalin kumpulan data ke Amazon S3 dengan mengunggah secara manual ke bucket Anda atau dengan menjalankan perintah berikut menggunakan AWS CLI:

$ aws s3 cp ./churn.txt s3://<YOUR S3 BUCKET>/datasets/tabular/datasets/churn.txt

Buat eksperimen Autopilot

Saat kumpulan data sudah siap, Anda dapat menginisialisasi eksperimen Autopilot di SageMaker Studio. Untuk petunjuk lengkap, lihat Buat eksperimen Autopilot Amazon SageMaker.

Bawah Pengaturan dasar, Anda dapat dengan mudah membuat eksperimen Autopilot dengan memberikan nama eksperimen, lokasi input dan output data, dan menentukan data target untuk diprediksi. Secara opsional, Anda dapat menentukan jenis masalah ML yang ingin Anda selesaikan. Jika tidak, gunakan Mobil pengaturan, dan Autopilot secara otomatis menentukan model berdasarkan data yang Anda berikan.

buat eksperimen autopilot

Anda juga dapat menjalankan eksperimen Autopilot dengan kode menggunakan AWS SDK untuk Python (Boto3) atau SageMaker Python SDK. Cuplikan kode berikut menunjukkan cara menginisialisasi eksperimen Autopilot menggunakan SageMaker Python SDK. Kami menggunakan Kelas AutoML dari SageMaker Python SDK.

from sagemaker import AutoML automl = AutoML(role="<SAGEMAKER EXECUTION ROLE>",
target_attribute_name="<NAME OF YOUR TARGET COLUMN>",
base_job_name="<NAME FOR YOUR AUTOPILOT EXPERIMENT>",
sagemaker_session="<SAGEMAKER SESSION>",
max_candidates="<MAX NUMBER OF TRAINING JOBS TO RUN AS PART OF THE EXPERIMENT>") automl.fit("<PATH TO INPUT DATASET>", job_name="<NAME OF YOUR AUTOPILOT EXPERIMENT>", wait=False, logs=False)

Setelah Autopilot memulai eksperimen, layanan secara otomatis memeriksa data input mentah, menerapkan prosesor fitur, dan memilih kumpulan algoritme terbaik. Setelah memilih algoritma, Autopilot mengoptimalkan kinerjanya menggunakan proses pencarian optimasi hyperparameter. Ini sering disebut sebagai pelatihan dan penyetelan model. Ini pada akhirnya membantu menghasilkan model yang dapat secara akurat membuat prediksi pada data yang belum pernah dilihatnya. Autopilot secara otomatis melacak kinerja model, lalu memberi peringkat model akhir berdasarkan metrik yang menggambarkan akurasi dan presisi model.

hasil percobaan autopilot

Anda juga memiliki opsi untuk menerapkan salah satu model peringkat baik dengan memilih model (klik kanan) dan memilih Terapkan model, atau dengan memilih model di daftar peringkat dan memilih Terapkan model.

Buat prediksi batch menggunakan model dari Autopilot

Saat eksperimen Autopilot Anda selesai, Anda dapat menggunakan model terlatih untuk menjalankan prediksi batch pada kumpulan data pengujian atau ketidaksepakatan Anda untuk evaluasi. Anda kemudian dapat membandingkan label yang diprediksi dengan label yang diharapkan jika set data pengujian atau ketidaksepakatan Anda telah diberi label sebelumnya. Ini pada dasarnya adalah cara untuk membandingkan prediksi model dengan kebenaran. Jika lebih banyak prediksi model yang cocok dengan label sebenarnya, kita biasanya dapat mengkategorikan model sebagai berkinerja baik. Anda juga dapat menjalankan prediksi batch untuk memberi label pada data yang tidak berlabel. Anda dapat dengan mudah mencapai hal yang sama menggunakan SageMaker Python SDK tingkat tinggi dengan beberapa baris kode.

Jelaskan eksperimen Autopilot yang dijalankan sebelumnya

Pertama-tama kita perlu mengekstrak informasi dari eksperimen Autopilot yang telah diselesaikan sebelumnya. Kita dapat menggunakan kelas AutoML dari SageMaker Python SDK untuk membuat objek automl yang merangkum informasi eksperimen Autopilot sebelumnya. Anda dapat menggunakan nama eksperimen yang Anda tetapkan saat menginisialisasi eksperimen Autopilot. Lihat kode berikut:

from sagemaker import AutoML autopilot_experiment_name = "<ENTER YOUR AUTOPILOT EXPERIMENT NAME HERE>"
automl = AutoML.attach(auto_ml_job_name=autopilot_experiment_name)

Dengan objek automl, kita dapat dengan mudah mendeskripsikan dan membuat ulang model terlatih terbaik, seperti yang ditunjukkan dalam cuplikan berikut:

best_candidate = automl.describe_auto_ml_job()['BestCandidate']
best_candidate_name = best_candidate['CandidateName'] model = automl.create_model(name=best_candidate_name, candidate=best_candidate, inference_response_keys=inference_response_keys)

Dalam beberapa kasus, Anda mungkin ingin menggunakan model selain model terbaik yang diberi peringkat oleh Autopilot. Untuk menemukan model kandidat seperti itu, Anda dapat menggunakan objek automl dan mengulangi daftar semua atau N kandidat model teratas dan memilih model yang ingin Anda buat ulang. Untuk posting ini, kami menggunakan loop Python For sederhana untuk beralih melalui daftar kandidat model:

all_candidates = automl.list_candidates(sort_by='FinalObjectiveMetricValue', sort_order='Descending', max_results=100) for candidate in all_candidates: if candidate['CandidateName'] == "<ANY CANDIDATE MODEL OTHER THAN BEST MODEL>": candidate_name = candidate['CandidateName'] model = automl.create_model(name=candidate_name, candidate=candidate, inference_response_keys=inference_response_keys) break

Sesuaikan respons inferensi

Saat membuat ulang model terlatih Autopilot terbaik atau lainnya, kami dapat menyesuaikan respons inferensi untuk model dengan menambahkan parameter tambahan inference_response_keys, seperti yang ditunjukkan pada contoh sebelumnya. Anda dapat menggunakan parameter ini untuk tipe masalah klasifikasi biner atau multikelas:

prediksi_label - Kelas yang diprediksi.
probabilitas – Dalam klasifikasi biner, probabilitas bahwa hasilnya diprediksi sebagai kelas kedua atau Benar di kolom target. Dalam klasifikasi multiclass, probabilitas kelas yang menang.
label – Daftar semua kelas yang mungkin.
probabilitas – Daftar semua probabilitas untuk semua kelas (urutan sesuai dengan label).

Karena masalah yang kami tangani dalam posting ini adalah klasifikasi biner, kami menetapkan parameter ini sebagai berikut di cuplikan sebelumnya saat membuat model:

inference_response_keys = ['predicted_label', 'probability']

Buat transformator dan jalankan prediksi batch

Terakhir, setelah kita membuat ulang model kandidat, kita dapat membuat transformator untuk memulai pekerjaan prediksi batch, seperti yang ditunjukkan dalam dua cuplikan kode berikut. Saat membuat transformator, kami menentukan spesifikasi cluster untuk menjalankan tugas batch, seperti jumlah dan jenis instance. Input dan output batch adalah lokasi Amazon S3 tempat input dan output data kami disimpan. Pekerjaan prediksi batch didukung oleh Transformasi batch SageMaker.

transformer = model.transformer(instance_count=1, instance_type='ml.m5.xlarge', assemble_with='Line', output_path=batch_output) transformer.transform(data=batch_input, split_type='Line', content_type='text/csv', wait=False)

Ketika pekerjaan selesai, kita dapat membaca output batch dan melakukan evaluasi dan tindakan hilir lainnya.

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan cara membuat prediksi batch dengan cepat dan mudah menggunakan model yang dilatih Autopilot untuk evaluasi pasca pelatihan Anda. Kami menggunakan SageMaker Studio untuk menginisialisasi eksperimen Autopilot guna membuat model untuk memprediksi churn pelanggan. Kemudian kami mereferensikan model terbaik Autopilot untuk menjalankan prediksi batch menggunakan kelas automl dengan SageMaker Python SDK. Kami juga menggunakan SDK untuk melakukan prediksi batch dengan kandidat model lainnya. Dengan Autopilot, kami secara otomatis menjelajahi dan memproses data sebelumnya, lalu membuat beberapa model ML dengan satu klik, memungkinkan SageMaker mengelola infrastruktur yang diperlukan untuk melatih dan menyempurnakan model kami. Terakhir, kami menggunakan transformasi batch untuk membuat prediksi dengan model kami menggunakan kode minimal.

Untuk informasi lebih lanjut tentang Autopilot dan fungsionalitas lanjutannya, lihat Otomatiskan pengembangan model dengan Amazon SageMaker Autopilot. Untuk panduan terperinci dari contoh di pos, lihat yang berikut ini contoh notebook.

Tentang Penulis

Arunprasath Shankar adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin (AI / ML) dengan AWS, membantu pelanggan global menskalakan solusi AI mereka secara efektif dan efisien di cloud. Di waktu senggangnya, Arun suka menonton film sci-fi dan mendengarkan musik klasik.

Peter Chung adalah Arsitek Solusi untuk AWS, dan bersemangat membantu pelanggan mengungkap wawasan dari data mereka. Dia telah membangun solusi untuk membantu organisasi membuat keputusan berdasarkan data baik di sektor publik maupun swasta. Dia memegang semua sertifikasi AWS serta dua sertifikasi GCP. Dia menikmati kopi, memasak, tetap aktif, dan menghabiskan waktu bersama keluarganya.