Bangun, Bagikan, Terapkan: Bagaimana Analis Bisnis Dan Ilmuwan Data Mencapai Waktu-ke-pasar Lebih Cepat Menggunakan ML Tanpa Kode dan Kanvas Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Pembelajaran mesin (ML) membantu organisasi meningkatkan pendapatan, mendorong pertumbuhan bisnis, dan mengurangi biaya dengan mengoptimalkan fungsi bisnis inti di berbagai vertikal, seperti perkiraan permintaan, penilaian kredit, penetapan harga, memprediksi churn pelanggan, mengidentifikasi penawaran terbaik berikutnya, memprediksi keterlambatan pengiriman, dan meningkatkan kualitas manufaktur. Siklus pengembangan ML tradisional membutuhkan waktu berbulan-bulan dan membutuhkan ilmu data yang langka dan keterampilan teknik ML. Ide-ide analis untuk model ML sering kali terbengkalai menunggu bandwidth tim ilmu data, sementara ilmuwan data fokus pada proyek ML yang lebih kompleks yang membutuhkan keahlian penuh mereka.

Untuk membantu memecahkan kebuntuan ini, kami telah memperkenalkan Kanvas Amazon SageMaker, solusi ML tanpa kode yang dapat membantu perusahaan mempercepat pengiriman solusi ML hingga hitungan jam atau hari. SageMaker Canvas memungkinkan analis untuk dengan mudah menggunakan data yang tersedia di data lake, gudang data, dan penyimpanan data operasional; membangun model ML; dan menggunakannya untuk membuat prediksi secara interaktif dan untuk penilaian batch pada kumpulan data massal—semuanya tanpa menulis satu baris kode pun.

Dalam postingan ini, kami menunjukkan bagaimana SageMaker Canvas memungkinkan kolaborasi antara ilmuwan data dan analis bisnis, mencapai waktu pemasaran yang lebih cepat dan mempercepat pengembangan solusi ML. Analis mendapatkan ruang kerja ML tanpa kode mereka sendiri di SageMaker Canvas, tanpa harus menjadi pakar ML. Analis kemudian dapat membagikan model mereka dari Canvas dengan beberapa klik, yang dapat digunakan oleh para ilmuwan data Studio Amazon SageMaker, lingkungan pengembangan terintegrasi (IDE) ML ujung ke ujung. Dengan bekerja sama, analis bisnis dapat membawa pengetahuan domain mereka dan hasil eksperimen, sementara ilmuwan data dapat secara efektif membuat saluran dan merampingkan proses.

Mari selami lebih dalam seperti apa alur kerjanya.

Analis bisnis membangun model, lalu membagikannya

Untuk memahami bagaimana SageMaker Canvas menyederhanakan kolaborasi antara analis bisnis dan ilmuwan data (atau insinyur ML), pertama-tama kami mendekati prosesnya sebagai analis bisnis. Sebelum Anda memulai, lihat Mengumumkan Amazon SageMaker Canvas – Kemampuan Machine Learning Visual, Tanpa Kode untuk Analis Bisnis untuk petunjuk tentang membangun dan menguji model dengan SageMaker Canvas.

Untuk posting ini, kami menggunakan versi modifikasi dari Dataset Deteksi Penipuan Kartu Kredit dari Kaggle, kumpulan data terkenal untuk masalah klasifikasi biner. Dataset awalnya sangat tidak seimbang—hanya memiliki sedikit entri yang diklasifikasikan sebagai kelas negatif (transaksi anomali). Terlepas dari distribusi fitur target, kita masih dapat menggunakan kumpulan data ini, karena SageMaker Canvas menangani ketidakseimbangan ini saat melatih dan menyetel model secara otomatis. Dataset ini terdiri dari sekitar 9 juta sel. Anda juga dapat mengunduh versi yang dikurangi dari kumpulan data ini. Ukuran kumpulan data jauh lebih kecil, sekitar 500,000 sel, karena telah diambil sampelnya secara acak di bawah sampel dan kemudian diambil sampelnya secara berlebihan dengan teknik SMOTE untuk memastikan bahwa informasi sesedikit mungkin hilang selama proses ini. Menjalankan seluruh eksperimen dengan set data yang dikurangi ini akan dikenakan biaya $0 di bawah SageMaker Canvas Tingkat Gratis.

Setelah model dibuat, analis dapat menggunakannya untuk membuat prediksi langsung di Canvas baik untuk permintaan individual, atau untuk seluruh kumpulan data input secara massal.

Model yang dibuat dengan Canvas Standard Build juga dapat dengan mudah dibagikan dengan mengklik tombol dengan ilmuwan data dan insinyur ML yang menggunakan SageMaker Studio. Ini memungkinkan ilmuwan data untuk memvalidasi kinerja model yang Anda buat dan memberikan umpan balik. Insinyur ML dapat mengambil model Anda dan mengintegrasikannya dengan alur kerja dan produk yang ada yang tersedia untuk perusahaan dan pelanggan Anda. Perhatikan bahwa, pada saat penulisan, tidak mungkin untuk membagikan model yang dibuat dengan Canvas Quick Build, atau model perkiraan deret waktu.

Berbagi model melalui Canvas UI sangatlah mudah:

Pada halaman yang menampilkan model yang telah Anda buat, pilih model.
Pilih Share.
Pilih satu atau beberapa versi model yang ingin Anda bagikan.
Secara opsional, sertakan catatan yang memberikan lebih banyak konteks tentang model atau bantuan yang Anda cari.
Pilih Buat Tautan SageMaker Studio.
Salin tautan yang dihasilkan.

Dan itu saja! Sekarang Anda dapat membagikan tautan dengan kolega Anda melalui Slack, email, atau metode lain apa pun yang Anda inginkan. Ilmuwan data harus berada di domain SageMaker Studio yang sama untuk mengakses model Anda, jadi pastikan hal ini terjadi pada admin organisasi Anda.

Ilmuwan data mengakses informasi model dari SageMaker Studio

Sekarang, mari berperan sebagai ilmuwan data atau insinyur ML, dan melihat berbagai hal dari sudut pandang mereka menggunakan SageMaker Studio.

Tautan yang dibagikan oleh analis membawa kita ke SageMaker Studio, IDE berbasis cloud pertama untuk alur kerja ML ujung ke ujung.

Tab terbuka secara otomatis, dan menampilkan ikhtisar model yang dibuat oleh analis di SageMaker Canvas. Anda dapat dengan cepat melihat nama model, jenis masalah ML, versi model, dan pengguna mana yang membuat model (di bawah kolom ID pengguna Canvas). Anda juga memiliki akses ke detail tentang kumpulan data input dan model terbaik yang dapat dihasilkan SageMaker. Kami akan membahasnya nanti di pos.

pada Masukan Dataset tab, Anda juga dapat melihat aliran data dari sumber ke kumpulan data input. Dalam hal ini, hanya satu sumber data yang digunakan dan tidak ada operasi gabungan yang diterapkan, sehingga satu sumber ditampilkan. Anda dapat menganalisis statistik dan detail tentang kumpulan data dengan memilih Buka buku catatan eksplorasi data. Buku catatan ini memungkinkan Anda menjelajahi data yang tersedia sebelum melatih model, dan berisi analisis variabel target, sampel data input, statistik dan deskripsi kolom dan baris, serta informasi berguna lainnya untuk ilmuwan data tahu lebih banyak tentang kumpulan data. Untuk mempelajari lebih lanjut tentang laporan ini, lihat Laporan eksplorasi data.

Setelah menganalisis dataset input, mari beralih ke tab kedua dari ikhtisar model, Pekerjaan AutoML. Tab ini berisi deskripsi tugas AutoML saat Anda memilih opsi Pembuatan Standar di Kanvas SageMaker.

Teknologi AutoML di bawah SageMaker Canvas menghilangkan beban berat dalam membangun model ML. Ini secara otomatis membangun, melatih, dan menyesuaikan model ML terbaik berdasarkan data Anda dengan menggunakan pendekatan otomatis, sekaligus memungkinkan Anda mempertahankan kontrol dan visibilitas penuh. Visibilitas pada model kandidat yang dihasilkan serta parameter hiper yang digunakan selama proses AutoML terdapat dalam buku catatan generasi calon, yang tersedia di tab ini.

Grafik Pekerjaan AutoML tab juga berisi daftar setiap model yang dibuat sebagai bagian dari proses AutoML, diurutkan menurut metrik tujuan F1. Untuk menyorot model terbaik dari pekerjaan pelatihan yang diluncurkan, tag dengan lingkaran hijau digunakan di Model Terbaik kolom. Anda juga dapat dengan mudah memvisualisasikan metrik lain yang digunakan selama fase pelatihan dan evaluasi, seperti skor akurasi dan Area di Bawah Kurva (AUC). Untuk mempelajari lebih lanjut tentang model yang dapat Anda latih selama tugas AutoML dan metrik yang digunakan untuk mengevaluasi performa model yang dilatih, lihat Dukungan model, metrik, dan validasi.

Untuk mempelajari lebih lanjut tentang model, Anda sekarang dapat mengklik kanan model terbaik dan memilih Buka di detail model. Atau, Anda dapat memilih Model terbaik link di atas Ringkasan model bagian yang pertama kali Anda kunjungi.

Halaman detail model berisi sejumlah besar informasi berguna mengenai model yang berkinerja terbaik dengan data masukan ini. Pertama-tama mari kita fokus pada ringkasan di bagian atas halaman. Contoh tangkapan layar sebelumnya menunjukkan bahwa, dari ratusan pelatihan model yang dijalankan, model XGBoost berkinerja paling baik pada kumpulan data input. Pada saat penulisan ini, SageMaker Canvas dapat melatih tiga jenis algoritme ML: pelajar linier, XGBoost, dan multilayer perceptron (MLP), masing-masing dengan berbagai macam pipeline preprocessing dan hyper-parameter. Untuk mempelajari lebih lanjut tentang setiap algoritma, lihat halaman algoritma yang didukung.

SageMaker juga menyertakan fungsi penjelasan berkat implementasi yang terukur dan efisien dari KernelSHAP, berdasarkan konsep nilai Shapley dari bidang teori permainan kooperatif yang menetapkan setiap fitur nilai penting untuk prediksi tertentu. Ini memungkinkan transparansi tentang bagaimana model sampai pada prediksinya, dan sangat berguna untuk menentukan pentingnya fitur. Laporan lengkap yang dapat dijelaskan termasuk pentingnya fitur dapat diunduh dalam format PDF, buku catatan, atau data mentah. Dalam laporan tersebut, kumpulan metrik yang lebih luas ditampilkan serta daftar lengkap parameter hiper yang digunakan selama tugas AutoML. Untuk mempelajari lebih lanjut tentang bagaimana SageMaker menyediakan alat keterjelasan terintegrasi untuk solusi AutoML dan algoritme ML standar, lihat Gunakan alat keterjelasan terintegrasi dan tingkatkan kualitas model menggunakan Amazon SageMaker Autopilot.

Terakhir, tab lain dalam tampilan ini menampilkan informasi tentang detail performa (matriks kebingungan, kurva penarikan presisi, kurva ROC), artefak yang digunakan untuk input dan dihasilkan selama tugas AutoML, dan detail jaringan.

Pada titik ini, ilmuwan data memiliki dua pilihan: langsung menerapkan model, atau membuat jalur pelatihan yang dapat dijadwalkan atau dipicu secara manual atau otomatis. Bagian berikut memberikan beberapa wawasan tentang kedua opsi tersebut.

Terapkan model secara langsung

Jika ilmuwan data puas dengan hasil yang diperoleh dari tugas AutoML, mereka dapat langsung menerapkan model dari Detail Model halaman. Sesederhana memilih Terapkan model di sebelah nama model.

SageMaker menunjukkan kepada Anda dua opsi untuk penerapan: titik akhir waktu nyata, didukung oleh Titik akhir Amazon SageMaker, dan inferensi batch, didukung oleh Transformasi batch Amazon SageMaker.

SageMaker juga menyediakan mode inferensi lainnya. Untuk mempelajari lebih lanjut, lihat Menerapkan Model untuk Inferensi.

Untuk mengaktifkan mode prediksi waktu nyata, Anda cukup memberi titik akhir nama, jenis instans, dan jumlah instans. Karena model ini tidak memerlukan sumber daya komputasi yang berat, Anda dapat menggunakan instans berbasis CPU dengan jumlah awal 1. Anda dapat mempelajari lebih lanjut tentang berbagai jenis instans yang tersedia dan spesifikasinya di Halaman Harga Amazon SageMaker (dalam Harga Sesuai Permintaan bagian, pilih Inferensi Waktu Nyata tab). Jika Anda tidak tahu instans mana yang harus Anda pilih untuk penerapan, Anda juga dapat meminta SageMaker untuk menemukan instans terbaik menurut KPI Anda dengan menggunakan Rekomendasi Inferensi SageMaker. Anda juga dapat memberikan parameter opsional tambahan, mengenai apakah Anda ingin menangkap data permintaan dan respons ke atau dari titik akhir atau tidak. Ini terbukti berguna jika Anda berencana memantau model Anda. Anda juga dapat memilih konten mana yang ingin Anda berikan sebagai bagian dari respons Anda—apakah itu hanya prediksi atau probabilitas prediksi, probabilitas semua kelas, dan label target.

Untuk menjalankan tugas penilaian batch yang mendapatkan prediksi untuk seluruh rangkaian input sekaligus, Anda dapat meluncurkan tugas transformasi batch dari Konsol Manajemen AWS atau melalui SageMaker Python SDK. Untuk mempelajari lebih lanjut tentang transformasi batch, lihat Gunakan Transformasi Batch dan contoh buku catatan.

Tentukan jalur pelatihan

Model ML sangat jarang, jika pernah, dianggap statis dan tidak berubah, karena menyimpang dari dasar yang telah dilatihnya. Data dunia nyata berkembang dari waktu ke waktu, dan lebih banyak pola dan wawasan muncul darinya, yang mungkin atau mungkin tidak ditangkap oleh model asli yang dilatih pada data historis. Untuk mengatasi masalah ini, Anda dapat menyiapkan jalur pelatihan yang secara otomatis melatih ulang model Anda dengan data terbaru yang tersedia.

Dalam mendefinisikan pipeline ini, salah satu opsi dari data scientist adalah sekali lagi menggunakan AutoML untuk pipeline pelatihan. Anda dapat meluncurkan tugas AutoML secara terprogram dengan memanggil create_auto_ml_job() API dari SDK Boto3 AWS. Anda dapat memanggil operasi ini dari AWS Lambda fungsi dalam sebuah Fungsi Langkah AWS alur kerja, atau dari LambdaStep in Pipa Amazon SageMaker.

Atau, ilmuwan data dapat menggunakan pengetahuan, artefak, dan parameter hiper yang diperoleh dari tugas AutoML untuk menentukan alur pelatihan yang lengkap. Anda membutuhkan sumber daya berikut:

Algoritme yang bekerja paling baik untuk kasus penggunaan – Anda telah memperoleh informasi ini dari ringkasan model yang dihasilkan Canvas. Untuk kasus penggunaan ini, ini adalah algoritma bawaan XGBoost. Untuk instruksi tentang cara menggunakan SageMaker Python SDK untuk melatih algoritme XGBoost dengan SageMaker, lihat Gunakan XGBoost dengan SageMaker Python SDK.

Hyperparameter yang diturunkan oleh tugas AutoML - Ini tersedia di Dapat dijelaskan bagian. Anda dapat menggunakannya sebagai input saat menentukan tugas pelatihan dengan SageMaker Python SDK.

Kode rekayasa fitur yang disediakan di bagian Artefak – Anda dapat menggunakan kode ini baik untuk pra-pemrosesan data sebelum pelatihan (misalnya, melalui Amazon SageMaker Processing), atau sebelum inferensi (misalnya, sebagai bagian dari saluran inferensi SageMaker).

Anda dapat menggabungkan sumber daya ini sebagai bagian dari saluran SageMaker. Kami menghilangkan detail implementasi di postingan ini—tetap ikuti perkembangan konten lainnya tentang topik ini.

Kesimpulan

SageMaker Canvas memungkinkan Anda menggunakan ML untuk menghasilkan prediksi tanpa perlu menulis kode apa pun. Seorang analis bisnis dapat secara mandiri mulai menggunakannya dengan kumpulan data lokal, serta data yang sudah disimpan di Layanan Penyimpanan Sederhana Amazon (Amazon S3), Pergeseran Merah Amazon, atau Kepingan Salju. Hanya dengan beberapa klik, mereka dapat mempersiapkan dan menggabungkan kumpulan data mereka, menganalisis perkiraan akurasi, memverifikasi kolom mana yang berdampak, melatih model berperforma terbaik, dan menghasilkan prediksi individu atau kumpulan baru, semuanya tanpa perlu melibatkan ilmuwan data ahli. Kemudian, sesuai kebutuhan, mereka dapat berbagi model dengan tim ilmuwan data atau insinyur MLOps, yang mengimpor model ke SageMaker Studio, dan bekerja bersama analis untuk memberikan solusi produksi.

Analis bisnis dapat memperoleh wawasan secara mandiri dari data mereka tanpa memiliki gelar dalam ML, dan tanpa harus menulis satu baris kode pun. Ilmuwan data sekarang dapat memiliki waktu tambahan untuk mengerjakan proyek yang lebih menantang yang dapat menggunakan pengetahuan mereka yang luas tentang AI dan ML dengan lebih baik.

Kami percaya kolaborasi baru ini membuka pintu untuk membangun banyak solusi ML yang lebih kuat untuk bisnis Anda. Anda sekarang memiliki analis yang menghasilkan wawasan bisnis yang berharga, sambil membiarkan ilmuwan data dan insinyur ML membantu menyempurnakan, menyesuaikan, dan memperluas sesuai kebutuhan.

Sumber Tambahan

Untuk mempelajari lebih lanjut tentang bagaimana SageMaker dapat membantu analis bisnis lebih lanjut, lihat Amazon SageMaker untuk Analis Bisnis.
Untuk mengetahui lebih lanjut tentang bagaimana SageMaker memungkinkan ilmuwan data mengembangkan, melatih, dan menerapkan model ML mereka, lihat Amazon SageMaker untuk Ilmuwan Data.
Untuk informasi selengkapnya tentang bagaimana SageMaker dapat membantu insinyur MLOps dalam merampingkan siklus hidup ML menggunakan MLOps, lihat Amazon SageMaker untuk Insinyur MLOps.

Tentang Penulis

Davide Gallitelli adalah Arsitek Solusi Spesialis untuk AI/ML di wilayah EMEA. Dia berbasis di Brussel dan bekerja sama dengan pelanggan di seluruh Benelux. Dia telah menjadi pengembang sejak dia masih sangat muda, mulai membuat kode pada usia 7 tahun. Dia mulai belajar AI/ML di universitas, dan telah jatuh cinta padanya sejak saat itu.

Tandai Roy adalah Principal Machine Learning Architect untuk AWS, membantu pelanggan merancang dan membangun solusi AI / ML. Pekerjaan Mark mencakup berbagai kasus penggunaan ML, dengan minat utama pada computer vision, deep learning, dan penskalaan ML di seluruh perusahaan. Dia telah membantu perusahaan di banyak industri, termasuk asuransi, layanan keuangan, media dan hiburan, perawatan kesehatan, utilitas, dan manufaktur. Mark memegang enam sertifikasi AWS, termasuk Sertifikasi Spesialisasi ML. Sebelum bergabung dengan AWS, Mark adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 25 tahun, termasuk 19 tahun dalam layanan keuangan.

Stempel Waktu: 10 Maret, 2022

Stempel Waktu: Juli 20, 2022

Diterbitkan Ulang Oleh Plato

Buku Putih: Praktik Terbaik Pembelajaran Mesin dalam Ilmu Kesehatan dan Kehidupan

Kurangi biaya dan waktu pengembangan dengan mode lokal Amazon SageMaker Pipelines

MLOps untuk inferensi batch dengan pemantauan dan pelatihan ulang model menggunakan Amazon SageMaker, HashiCorp Terraform, dan GitLab CI/CD | Layanan Web Amazon

Menciptakan kembali pengalaman data: Gunakan AI generatif dan arsitektur data modern untuk membuka wawasan | Layanan Web Amazon

Moderasi, klasifikasikan, dan proses dokumen menggunakan Amazon Rekognition dan Amazon Textract

Bangun penargetan kontekstual berbasis taksonomi menggunakan AWS Media Intelligence dan Hugging Face BERT

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun