Kelola Alur Kerja AutoML Dengan AWS Step Functions Dan AutoGluon Di Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Menjalankan eksperimen machine learning (ML) di cloud dapat menjangkau banyak layanan dan komponen. Kemampuan untuk menyusun, mengotomatisasi, dan melacak eksperimen ML sangat penting untuk memungkinkan pengembangan model ML dengan cepat. Dengan kemajuan terbaru di bidang pembelajaran mesin otomatis (AutoML), yaitu area ML yang didedikasikan untuk otomatisasi proses ML, Anda dapat membangun model pengambilan keputusan yang akurat tanpa memerlukan pengetahuan ML yang mendalam. Dalam posting ini, kita melihat AutoGluon, kerangka kerja AutoML open-source yang memungkinkan Anda membangun model ML yang akurat hanya dengan beberapa baris Python.

AWS menawarkan berbagai layanan untuk mengelola dan menjalankan alur kerja ML, memungkinkan Anda memilih solusi berdasarkan keahlian dan aplikasi Anda. Misalnya, jika Anda sudah menggunakan Fungsi Langkah AWS untuk mengatur komponen aplikasi terdistribusi, Anda dapat menggunakan layanan yang sama untuk membangun dan mengotomatiskan alur kerja ML Anda. Alat MLOps lain yang ditawarkan oleh AWS termasuk Pipa Amazon SageMaker, yang memungkinkan Anda membuat model ML di Studio Amazon SageMaker dengan kemampuan MLOps (seperti kompatibilitas CI/CD, pemantauan model, dan persetujuan model). Alat sumber terbuka, seperti Aliran Udara Apache—tersedia di AWS melalui Alur Kerja Terkelola Amazon untuk Apache Airflow-dan KubeFlow, serta solusi hybrid, juga didukung. Misalnya, Anda dapat mengelola penyerapan dan pemrosesan data dengan Step Functions sambil melatih dan men-deploy model ML Anda dengan SageMaker Pipelines.

Dalam posting ini, kami menunjukkan bagaimana bahkan pengembang tanpa keahlian ML dapat dengan mudah membangun dan memelihara model ML mutakhir menggunakan AutoGluon di Amazon SageMaker dan Fungsi Langkah untuk mengatur komponen alur kerja.

Setelah ikhtisar algoritma AutoGluon, kami menyajikan definisi alur kerja bersama dengan contoh dan a tutorial kode yang dapat Anda terapkan pada data Anda sendiri.

Perekat Otomatis

AutoGluon adalah kerangka kerja AutoML open-source yang mempercepat adopsi ML dengan melatih model ML yang akurat hanya dengan beberapa baris kode Python. Meskipun posting ini berfokus pada data tabular, AutoGluon juga memungkinkan Anda untuk melatih model canggih untuk klasifikasi gambar, deteksi objek, dan klasifikasi teks. Tabular AutoGluon membuat dan menggabungkan berbagai model untuk menemukan solusi optimal.

Tim AutoGluon di AWS merilis a kertas yang menyajikan prinsip-prinsip yang menyusun perpustakaan:

Kesederhanaan – Anda dapat membuat model klasifikasi dan regresi langsung dari data mentah tanpa harus menganalisis data atau melakukan rekayasa fitur
Kekokohan – Proses pelatihan secara keseluruhan harus berhasil bahkan jika beberapa model individu gagal
Waktu yang dapat diprediksi – Anda bisa mendapatkan hasil yang optimal dalam waktu yang Anda ingin investasikan untuk pelatihan
Toleransi kesalahan – Anda dapat menghentikan pelatihan dan melanjutkannya kapan saja, yang mengoptimalkan biaya jika proses berjalan pada gambar spot di cloud

Untuk detail lebih lanjut tentang algoritme, lihat kertas dirilis oleh tim AutoGluon di AWS.

Setelah Anda menginstal Paket AutoGluon dan dependensinya, melatih model semudah menulis tiga baris kode:

from autogluon.tabular import TabularDataset, TabularPredictor train_data = TabularDataset('s3://my-bucket/datasets/my-csv.csv')
predictor = TabularPredictor(label="my-label", path="my-output-folder").fit(train_data)

Tim AutoGluon membuktikan kekuatan kerangka kerja dengan mencapai 10 papan peringkat teratas di beberapa kompetisi Kaggle.

Ikhtisar solusi

Kami menggunakan Step Functions untuk mengimplementasikan alur kerja ML yang mencakup pelatihan, evaluasi, dan penerapan. Desain pipeline memungkinkan eksperimen yang cepat dan dapat dikonfigurasi dengan memodifikasi parameter input yang Anda masukkan ke dalam pipeline saat runtime.

Anda dapat mengonfigurasi saluran untuk menerapkan alur kerja yang berbeda, seperti berikut ini:

Latih model ML baru dan simpan di registri model SageMaker, jika penerapan tidak diperlukan saat ini
Terapkan model ML terlatih, baik untuk online (Titik akhir SageMaker) atau offline (Transformasi batch SageMaker) kesimpulan
Jalankan pipeline lengkap untuk melatih, mengevaluasi, dan menerapkan model ML dari awal

Solusinya terdiri dari umum mesin negara (lihat diagram berikut) yang mengatur serangkaian tindakan yang akan dijalankan berdasarkan serangkaian parameter input.

Langkah-langkah mesin negara adalah sebagai berikut:

Langkah pertama IsTraining memutuskan apakah kita menggunakan model yang telah dilatih sebelumnya atau melatih model dari awal. Jika menggunakan model yang telah dilatih sebelumnya, mesin status melompat ke Langkah 7.
Saat model ML baru diperlukan, TrainSteps memicu mesin keadaan kedua yang melakukan semua tindakan yang diperlukan dan mengembalikan hasilnya ke mesin keadaan saat ini. Kami membahas lebih detail tentang mesin status pelatihan di bagian selanjutnya.
Ketika pelatihan selesai, PassModelName menyimpan nama tugas pelatihan di lokasi tertentu dari konteks mesin status untuk digunakan kembali di status berikut.
Jika fase evaluasi dipilih, IsEvaluation mengarahkan mesin negara ke cabang evaluasi. Jika tidak, itu melompat ke Langkah 7.
Tahap evaluasi kemudian diimplementasikan dengan menggunakan AWS Lambda fungsi yang dipanggil oleh ModelValidation melangkah. Fungsi Lambda mengambil performa model pada set pengujian dan membandingkannya dengan ambang batas yang dapat dikonfigurasi pengguna yang ditentukan dalam parameter input. Kode berikut adalah contoh hasil evaluasi:
```
"Payload":{ "IsValid":true, "Scores":{ "accuracy":0.9187, "balanced_accuracy":0.7272, "mcc":0.5403, "roc_auc":0.9489, "f1":0.5714, "precision":0.706, "recall":0.4799 }
}
```
Jika evaluasi model pada EvaluationResults berhasil, mesin negara melanjutkan dengan langkah-langkah penyebaran akhirnya. Jika model berperforma di bawah kriteria yang ditentukan pengguna, mesin status berhenti dan penerapan dilewati.
Jika penyebaran dipilih, IsDeploy memulai mesin negara ketiga melalui DeploySteps, yang kami jelaskan nanti di posting ini. Jika penerapan tidak diperlukan, mesin status berhenti di sini.

Satu set sampel parameter input tersedia di GitHub repo.

Mesin status pelatihan

Mesin status untuk melatih model ML baru menggunakan AutoGluon terdiri dari dua langkah, seperti yang diilustrasikan dalam diagram berikut. Langkah pertama adalah tugas pelatihan SageMaker yang membuat model. Yang kedua menyimpan entri dalam registri model SageMaker.

Anda dapat menjalankan langkah-langkah ini secara otomatis sebagai bagian dari mesin status utama, atau sebagai proses mandiri.

Mesin status penerapan

Sekarang mari kita lihat state machine yang didedikasikan untuk fase penerapan (lihat diagram berikut). Seperti disebutkan sebelumnya, arsitektur mendukung penyebaran online dan offline. Yang pertama terdiri dari menyebarkan titik akhir SageMaker, sedangkan yang terakhir menjalankan Pekerjaan transformasi batch SageMaker.

Langkah-langkah pelaksanaannya adalah sebagai berikut:

ChoiceDeploymentMode melihat parameter input untuk menentukan mode penerapan mana yang diperlukan dan mengarahkan mesin status ke cabang yang sesuai.
Jika titik akhir dipilih, maka EndpointConfig langkah mendefinisikan konfigurasinya, sementara CreateEndpoint memulai proses pengalokasian sumber daya komputasi yang diperlukan. Alokasi ini dapat memakan waktu beberapa menit, sehingga mesin negara berhenti pada WaitForEndpoint dan menggunakan fungsi Lambda untuk melakukan polling status titik akhir.
Saat titik akhir sedang dikonfigurasi, ChoiceEndpointStatus kembali ke WaitForEndpoint negara, jika tidak, terus baik DeploymentFailed or DeploymentSucceeded.
Jika penyebaran offline dipilih, mesin status menjalankan tugas transformasi batch SageMaker, setelah itu mesin status berhenti.

Kesimpulan

Postingan ini menyajikan alur yang mudah digunakan untuk mengatur alur kerja AutoML dan memungkinkan eksperimen cepat di cloud, memungkinkan solusi ML yang akurat tanpa memerlukan pengetahuan ML tingkat lanjut.

Kami menyediakan jalur umum serta dua jalur modular yang memungkinkan Anda melakukan pelatihan dan penerapan secara terpisah jika diperlukan. Selain itu, solusi ini sepenuhnya terintegrasi dengan SageMaker, memanfaatkan fitur dan sumber daya komputasinya.

Mulailah sekarang dengan ini tutorial kode untuk menerapkan sumber daya yang disajikan dalam postingan ini ke akun AWS Anda dan menjalankan eksperimen AutoML pertama Anda.

Tentang Penulis

Federico Piccini adalah Arsitek Pembelajaran Mendalam untuk Lab Solusi Pembelajaran Mesin Amazon. Dia bersemangat tentang pembelajaran mesin, AI yang dapat dijelaskan, dan MLOps. Dia berfokus pada merancang saluran ML untuk pelanggan AWS. Di luar pekerjaan, ia menikmati olahraga dan pizza.

Paolo Irrera adalah Data Scientist di Amazon Machine Learning Solutions Lab, tempat dia membantu pelanggan mengatasi masalah bisnis dengan kemampuan ML dan cloud. Beliau meraih gelar PhD dalam Computer Vision dari Telecom ParisTech, Paris.