Buku Catatan Ilustratif Di Amazon SageMaker JumpStart

Diterbitkan Ulang Oleh Plato

Followers: 0

Mulai Lompatan Amazon SageMaker adalah pusat Pembelajaran Mesin (ML) dari SageMaker yang menyediakan model pra-terlatih yang tersedia untuk umum untuk berbagai jenis masalah guna membantu Anda memulai pembelajaran mesin.

JumpStart juga menawarkan contoh notebook yang digunakan Amazon SageMaker fitur-fitur seperti pelatihan instans spot dan eksperimen pada berbagai jenis model dan kasus penggunaan. Buku catatan contoh ini berisi kode yang menunjukkan cara menerapkan solusi ML dengan menggunakan SageMaker dan JumpStart. Mereka dapat diadaptasi agar sesuai dengan kebutuhan Anda sendiri dan dengan demikian dapat mempercepat pengembangan aplikasi.

Baru-baru ini, kami menambahkan 10 notebook baru ke JumpStart Studio Amazon SageMaker. Posting ini berfokus pada buku catatan baru ini. Saat tulisan ini dibuat, JumpStart menawarkan 56 notebook, mulai dari menggunakan model pemrosesan bahasa alami (NLP) yang canggih hingga memperbaiki bias dalam kumpulan data saat melatih model.

10 buku catatan baru dapat membantu Anda dalam hal-hal berikut:

Mereka menawarkan kode contoh untuk Anda jalankan apa adanya dari UI JumpStart di Studio dan lihat cara kerja kode tersebut
Mereka menunjukkan penggunaan berbagai API SageMaker dan JumpStart
Mereka menawarkan solusi teknis yang dapat Anda sesuaikan lebih lanjut berdasarkan kebutuhan Anda sendiri

Jumlah notebook yang ditawarkan melalui JumpStart meningkat secara teratur karena semakin banyak notebook yang ditambahkan. Notebook ini juga tersedia di github.

Ikhtisar notebook

Adapun 10 notebook baru tersebut adalah sebagai berikut:

Pembelajaran dalam konteks dengan AlexaTM 20B – Mendemonstrasikan cara menggunakan AlexaTM 20B untuk pembelajaran dalam konteks dengan pembelajaran zero-shot dan few-shot pada lima contoh tugas: peringkasan teks, pembuatan bahasa alami, terjemahan mesin, penjawaban pertanyaan ekstraktif, serta inferensi dan klasifikasi bahasa alami.
Pelajar linear keadilan di SageMaker – Baru-baru ini ada kekhawatiran tentang bias dalam algoritme ML karena meniru prasangka manusia yang ada. Notebook ini menerapkan konsep kewajaran untuk menyesuaikan prediksi model dengan tepat.
Kelola eksperimen ML menggunakan Pencarian SageMaker – Amazon SageMaker Search memungkinkan Anda dengan cepat menemukan dan mengevaluasi pelatihan model paling relevan yang dijalankan dari ratusan dan ribuan tugas pelatihan model SageMaker.
Model Topik Neural SageMaker – SageMaker Neural Topic Model (NTM) adalah algoritme pembelajaran tanpa pengawasan yang mencoba mendeskripsikan serangkaian pengamatan sebagai campuran kategori yang berbeda.
Memprediksi pelanggaran kecepatan mengemudi – Algoritme SageMaker DeepAR dapat digunakan untuk melatih model untuk beberapa jalan secara bersamaan, dan memprediksi pelanggaran untuk beberapa kamera jalan.
Prediksi kanker payudara – Notebook ini menggunakan kumpulan data diagnostik kanker payudara UCI untuk membuat model prediksi apakah citra massa payudara menunjukkan tumor jinak atau ganas.
Susun prediksi dari beberapa model – Dengan menggabungkan atau merata-ratakan prediksi dari berbagai sumber dan model, kami biasanya mendapatkan perkiraan yang lebih baik. Notebook ini mengilustrasikan konsep ini.
inferensi asinkron SageMaker – Inferensi asinkron adalah opsi inferensi baru untuk kebutuhan inferensi hampir real-time. Permintaan dapat memakan waktu hingga 15 menit untuk diproses dan memiliki ukuran payload hingga 1 GB.
TensorFlow menghadirkan model Anda sendiri – Pelajari cara melatih model TensorFlow secara lokal dan menerapkan di SageMaker menggunakan notebook ini.
Scikit-belajar membawa model Anda sendiri – Notebook ini menunjukkan cara menggunakan model Scikit-learn terlatih dengan wadah Scikit-learn SageMaker untuk membuat titik akhir yang dihosting untuk model tersebut dengan cepat.

Prasyarat

Untuk menggunakan notebook ini, pastikan Anda memiliki akses ke Studio dengan peran eksekusi yang memungkinkan Anda menjalankan fungsionalitas SageMaker. Video singkat di bawah ini akan membantu Anda menavigasi ke notebook JumpStart.

Di bagian berikut, kita membahas masing-masing dari 10 solusi baru dan membahas beberapa detail menariknya.

Pembelajaran dalam konteks dengan AlexaTM 20B

AlexaTM 20B adalah model multitugas, multibahasa, urutan-ke-urutan berskala besar (seq2seq), dilatih dengan campuran Common Crawl (mC4) dan data Wikipedia dalam 12 bahasa, menggunakan tugas denoising dan Causal Language Modeling (CLM). Ini mencapai kinerja canggih pada tugas-tugas bahasa umum dalam konteks seperti peringkasan satu-shot dan terjemahan mesin satu-shot, mengungguli model decoder saja seperti Open AI's GPT3 dan Google's PaLM, yang lebih dari delapan kali lebih besar.

Pembelajaran dalam konteks, juga dikenal sebagai dorongan, mengacu pada metode di mana Anda menggunakan model NLP pada tugas baru tanpa harus menyempurnakannya. Beberapa contoh tugas disediakan untuk model hanya sebagai bagian dari input inferensi, sebuah paradigma yang dikenal sebagai pembelajaran dalam konteks beberapa langkah. Pada beberapa kasus, model dapat bekerja dengan baik tanpa adanya data training sama sekali, hanya diberikan penjelasan tentang apa yang seharusnya diprediksi. Ini disebut pembelajaran dalam konteks zero-shot.

Notebook ini mendemonstrasikan cara menerapkan AlexaTM 20B melalui JumpStart API dan menjalankan inferensi. Ini juga menunjukkan bagaimana AlexaTM 20B dapat digunakan untuk pembelajaran dalam konteks dengan lima tugas contoh: peringkasan teks, pembuatan bahasa alami, terjemahan mesin, penjawaban pertanyaan ekstraktif, dan inferensi dan klasifikasi bahasa alami.

Buku catatan ilustrasi di Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Buku catatan menunjukkan hal berikut:

Peringkasan teks sekali pakai, pembuatan bahasa alami, dan terjemahan mesin menggunakan satu contoh pelatihan untuk setiap tugas ini
Penjawaban pertanyaan zero-shot dan inferensi bahasa alami plus klasifikasi menggunakan model apa adanya, tanpa perlu memberikan contoh pelatihan apa pun.

Coba jalankan teks Anda sendiri dengan model ini dan lihat bagaimana ini meringkas teks, mengekstrak Q&A, atau menerjemahkan dari satu bahasa ke bahasa lain.

Pelajar linier keadilan di SageMaker

Baru-baru ini ada kekhawatiran tentang bias dalam algoritme ML karena meniru prasangka manusia yang ada. Saat ini, beberapa metode ML memiliki implikasi sosial yang kuat, misalnya digunakan untuk memprediksi pinjaman bank, tarif asuransi, atau iklan. Sayangnya, algoritme yang belajar dari data historis secara alami akan mewarisi bias masa lalu. Notebook ini menyajikan cara mengatasi masalah ini dengan menggunakan SageMaker dan algoritme adil dalam konteks pembelajar linier.

Dimulai dengan memperkenalkan beberapa konsep dan matematika di balik keadilan, kemudian mengunduh data, melatih model, dan terakhir menerapkan konsep keadilan untuk menyesuaikan prediksi model dengan tepat.

Buku catatan menunjukkan hal berikut:

Menjalankan model linier standar pada kumpulan data Dewasa UCI.
Menampilkan ketidakadilan dalam prediksi model
Memperbaiki data untuk menghilangkan bias
Melatih kembali model

Coba jalankan data Anda sendiri menggunakan kode contoh ini dan deteksi jika ada bias. Setelah itu, coba hapus bias, jika ada, di kumpulan data Anda menggunakan fungsi yang disediakan di notebook contoh ini.

Kelola eksperimen ML menggunakan Penelusuran SageMaker

Pencarian SageMaker memungkinkan Anda dengan cepat menemukan dan mengevaluasi pelatihan model paling relevan yang dijalankan dari kemungkinan ratusan dan ribuan pekerjaan pelatihan model SageMaker. Mengembangkan model ML memerlukan eksperimen berkelanjutan, mencoba algoritme pembelajaran baru, dan menyetel hyperparameter, sambil mengamati dampak perubahan tersebut pada performa dan akurasi model. Latihan berulang ini sering menyebabkan ledakan ratusan eksperimen pelatihan model dan versi model, memperlambat konvergensi dan penemuan model pemenang. Selain itu, ledakan informasi membuat sangat sulit untuk melacak kembali garis keturunan versi model — kombinasi unik dari kumpulan data, algoritme, dan parameter yang membuat model tersebut sejak awal.

Buku catatan ini menunjukkan cara menggunakan Pencarian SageMaker untuk mengatur, melacak, dan mengevaluasi tugas pelatihan model Anda di SageMaker dengan cepat dan mudah. Anda dapat mencari semua atribut penentu dari algoritme pembelajaran yang digunakan, pengaturan hyperparameter, kumpulan data pelatihan yang digunakan, dan bahkan tag yang telah Anda tambahkan pada tugas pelatihan model. Anda juga dapat dengan cepat membandingkan dan memberi peringkat latihan Anda berdasarkan metrik kinerjanya, seperti kehilangan pelatihan dan akurasi validasi, sehingga membuat papan peringkat untuk mengidentifikasi model pemenang yang dapat diterapkan ke dalam lingkungan produksi. SageMaker Search dapat dengan cepat melacak kembali silsilah lengkap versi model yang diterapkan di lingkungan langsung, hingga set data yang digunakan dalam pelatihan dan validasi model.

Buku catatan menunjukkan hal berikut:

Melatih model linier tiga kali
Menggunakan Pencarian SageMaker untuk mengatur dan mengevaluasi eksperimen ini
Memvisualisasikan hasil di papan peringkat
Menyebarkan model ke titik akhir
Menelusuri garis keturunan model mulai dari titik akhir

Dalam pengembangan model prediktif Anda sendiri, Anda mungkin menjalankan beberapa percobaan. Coba gunakan Pencarian SageMaker dalam eksperimen semacam itu dan rasakan bagaimana ini dapat membantu Anda dalam berbagai cara.

Model Topik Neural SageMaker

SageMaker Neural Topic Model (NTM) adalah algoritme pembelajaran tanpa pengawasan yang mencoba mendeskripsikan serangkaian pengamatan sebagai campuran kategori yang berbeda. NTM paling sering digunakan untuk menemukan sejumlah topik yang ditentukan pengguna yang dibagikan oleh dokumen dalam korpus teks. Di sini setiap pengamatan adalah sebuah dokumen, fiturnya adalah keberadaan (atau jumlah kemunculan) dari setiap kata, dan kategorinya adalah topiknya. Karena metode ini tidak diawasi, topik tidak ditentukan di muka dan tidak dijamin selaras dengan cara manusia mengkategorikan dokumen secara alami. Topik dipelajari sebagai distribusi probabilitas atas kata-kata yang muncul di setiap dokumen. Setiap dokumen, pada gilirannya, digambarkan sebagai campuran topik.

Notebook ini menggunakan algoritme SageMaker NTM untuk melatih model pada kumpulan data 20NewsGroups. Dataset ini telah banyak digunakan sebagai tolok ukur pemodelan topik.

Buku catatan menunjukkan hal berikut:

Membuat tugas pelatihan SageMaker pada set data untuk menghasilkan model NTM
Menggunakan model untuk melakukan inferensi dengan titik akhir SageMaker
Menjelajahi model yang dilatih dan memvisualisasikan topik yang dipelajari

Anda dapat dengan mudah memodifikasi notebook ini untuk dijalankan pada dokumen teks Anda dan membaginya menjadi berbagai topik.

Memprediksi pelanggaran kecepatan mengemudi

Notebook ini mendemonstrasikan perkiraan deret waktu menggunakan algoritme SageMaker DeepAR dengan menganalisis dataset Pelanggaran Kamera Kecepatan kota Chicago. Kumpulan data dihosting oleh Data.gov, dan dikelola oleh Administrasi Layanan Umum AS, Layanan Transformasi Teknologi.

Pelanggaran ini ditangkap oleh sistem kamera dan tersedia untuk meningkatkan kehidupan publik melalui portal data kota Chicago. Dataset Pelanggaran Kamera Kecepatan dapat digunakan untuk membedakan pola dalam data dan mendapatkan wawasan yang bermakna.

Kumpulan data berisi beberapa lokasi kamera dan jumlah pelanggaran harian. Setiap jumlah pelanggaran harian untuk kamera dapat dianggap sebagai deret waktu terpisah. Anda dapat menggunakan algoritme SageMaker DeepAR untuk melatih model untuk beberapa jalan secara bersamaan, dan memprediksi pelanggaran untuk beberapa kamera jalan.

Buku catatan menunjukkan hal berikut:

Melatih algoritme SageMaker DeepAR pada set data deret waktu menggunakan instans spot
Membuat inferensi pada model yang dilatih untuk membuat prediksi pelanggaran lalu lintas

Dengan notebook ini, Anda dapat mempelajari bagaimana masalah deret waktu dapat diselesaikan menggunakan algoritme DeepAR di SageMaker dan mencoba menerapkannya pada kumpulan data deret waktu Anda sendiri.

Prediksi kanker payudara

Notebook ini mengambil contoh prediksi kanker payudara menggunakan dataset diagnostik kanker payudara UCI. Ini menggunakan dataset ini untuk membangun model prediksi apakah gambar massa payudara menunjukkan tumor jinak atau ganas.

Buku catatan menunjukkan hal berikut:

Penyiapan dasar untuk menggunakan SageMaker
Mengonversi kumpulan data ke format Protobuf yang digunakan oleh algoritme SageMaker dan mengunggah ke Layanan Penyimpanan Sederhana Amazon (Amazon S3)
Melatih model pelajar linear SageMaker pada set data
Hosting model terlatih
Scoring menggunakan model terlatih

Anda dapat mempelajari buku catatan ini untuk mempelajari cara memecahkan masalah bisnis menggunakan SageMaker, dan memahami langkah-langkah yang diperlukan untuk melatih dan menghosting model.

Susun prediksi dari beberapa model

Dalam aplikasi praktis ML pada tugas prediktif, satu model seringkali tidak cukup. Sebagian besar kompetisi prediksi biasanya memerlukan penggabungan perkiraan dari berbagai sumber untuk mendapatkan perkiraan yang lebih baik. Dengan menggabungkan atau merata-ratakan prediksi dari berbagai sumber atau model, kami biasanya mendapatkan perkiraan yang lebih baik. Hal ini terjadi karena ada ketidakpastian yang cukup besar dalam pemilihan model dan tidak ada model yang benar dalam banyak aplikasi praktis. Oleh karena itu, ada baiknya menggabungkan prediksi dari model yang berbeda. Dalam literatur Bayesian, ide ini disebut sebagai rata-rata model Bayesian, dan telah terbukti bekerja jauh lebih baik daripada hanya memilih satu model.

Buku catatan ini menyajikan contoh ilustratif untuk memprediksi jika seseorang menghasilkan lebih dari $50,000 per tahun berdasarkan informasi tentang pendidikan, pengalaman kerja, jenis kelamin, dan lainnya.

Buku catatan menunjukkan hal berikut:

Menyiapkan buku catatan SageMaker Anda
Memuat kumpulan data dari Amazon S3 menggunakan SageMaker
Menyelidiki dan mengubah data sehingga dapat dimasukkan ke algoritme SageMaker
Memperkirakan model menggunakan algoritme SageMaker XGBoost (Extreme Gradient Boosting).
Hosting model di SageMaker untuk membuat prediksi berkelanjutan
Memperkirakan model kedua menggunakan metode pelajar linier SageMaker
Menggabungkan prediksi dari kedua model dan mengevaluasi prediksi gabungan
Menghasilkan prediksi akhir pada set data uji

Coba jalankan notebook ini di kumpulan data Anda dan gunakan beberapa algoritme. Cobalah bereksperimen dengan berbagai kombinasi model yang ditawarkan oleh SageMaker dan JumpStart dan lihat kombinasi model ansambel mana yang memberikan hasil terbaik pada data Anda sendiri.

Inferensi asinkron SageMaker

Inferensi asinkron SageMaker adalah kemampuan baru di SageMaker yang mengantrikan permintaan masuk dan memprosesnya secara asinkron. SageMaker saat ini menawarkan dua opsi inferensi bagi pelanggan untuk menerapkan model ML: opsi real-time untuk beban kerja latensi rendah, dan transformasi batch, opsi offline untuk memproses permintaan inferensi pada kumpulan data yang tersedia di muka. Inferensi real-time cocok untuk beban kerja dengan ukuran payload kurang dari 6 MB dan memerlukan permintaan inferensi untuk diproses dalam 60 detik. Transformasi batch cocok untuk inferensi offline pada kumpulan data.

Inferensi asinkron adalah opsi inferensi baru untuk kebutuhan inferensi hampir real-time. Permintaan dapat memakan waktu hingga 15 menit untuk diproses dan memiliki ukuran payload hingga 1 GB. Inferensi asinkron cocok untuk beban kerja yang tidak memiliki persyaratan latensi subdetik dan memiliki persyaratan latensi yang santai. Misalnya, Anda mungkin perlu memproses inferensi pada gambar besar berukuran beberapa MB dalam waktu 5 menit. Selain itu, titik akhir inferensi asinkron memungkinkan Anda mengontrol biaya dengan menurunkan jumlah instans titik akhir menjadi nol saat tidak digunakan, sehingga Anda hanya membayar saat titik akhir memproses permintaan.

Buku catatan menunjukkan hal berikut:

Membuat model SageMaker
Membuat titik akhir menggunakan model ini dan konfigurasi inferensi asinkron
Membuat prediksi terhadap titik akhir asinkron ini

Notebook ini menampilkan contoh kerja untuk menyusun titik akhir asinkron untuk model SageMaker.

TensorFlow menghadirkan model Anda sendiri

Model TensorFlow dilatih secara lokal pada tugas klasifikasi tempat notebook ini dijalankan. Kemudian diterapkan pada titik akhir SageMaker.

Buku catatan menunjukkan hal berikut:

Melatih model TensorFlow secara lokal di set data IRIS
Mengimpor model itu ke SageMaker
Menghostingnya di titik akhir

Jika Anda memiliki model TensorFlow yang Anda kembangkan sendiri, notebook contoh ini dapat membantu Anda menghosting model Anda di titik akhir terkelola SageMaker.

Scikit-belajar membawa model Anda sendiri

SageMaker menyertakan fungsionalitas untuk mendukung lingkungan notebook yang dihosting, pelatihan terdistribusi, tanpa server, dan hosting waktu nyata. Ini bekerja paling baik ketika ketiga layanan ini digunakan bersama, tetapi mereka juga dapat digunakan secara terpisah. Beberapa kasus penggunaan mungkin hanya memerlukan hosting. Mungkin model tersebut dilatih sebelum SageMaker ada, di layanan yang berbeda.

Buku catatan menunjukkan hal berikut:

Menggunakan model Scikit-learn terlatih dengan wadah SageMaker Scikit-learn untuk membuat titik akhir yang dihosting dengan cepat untuk model tersebut

Jika Anda memiliki model Scikit-learn yang Anda kembangkan sendiri, buku catatan contoh ini dapat membantu Anda menghosting model Anda di titik akhir terkelola SageMaker.

Bersihkan sumber daya

Setelah Anda selesai menjalankan buku catatan di JumpStart, pastikan untuk melakukannya Hapus semua sumber daya sehingga semua sumber daya yang Anda buat dalam proses dihapus dan penagihan Anda dihentikan. Sel terakhir dalam buku catatan ini biasanya menghapus titik akhir yang dibuat.

Kesimpulan

Posting ini memandu Anda melalui 10 buku catatan contoh baru yang baru saja ditambahkan ke JumpStart. Meskipun postingan ini berfokus pada 10 buku catatan baru ini, ada total 56 buku catatan yang tersedia saat tulisan ini dibuat. Kami mendorong Anda untuk masuk ke Studio dan menjelajahi sendiri buku catatan JumpStart, dan mulai mendapatkan nilai langsung darinya. Untuk informasi lebih lanjut, lihat Studio Amazon SageMaker dan SageMaker JumpStart.

tentang Penulis

Dr. Raju Penmatcha adalah Arsitek Solusi Spesialis AI/ML di Platform AI di AWS. Ia menerima gelar PhD dari Stanford University. Dia bekerja erat pada layanan suite rendah/tanpa kode di SageMaker yang membantu pelanggan dengan mudah membangun dan menerapkan model dan solusi pembelajaran mesin.

Stempel Waktu: Desember 1, 2022Desember 2, 2022

Stempel Waktu: Oktober 2, 2023

Buku catatan ilustrasi di Amazon SageMaker JumpStart

Diterbitkan Ulang Oleh Plato

Ikhtisar notebook

Prasyarat

Pembelajaran dalam konteks dengan AlexaTM 20B

Pelajar linier keadilan di SageMaker

Kelola eksperimen ML menggunakan Penelusuran SageMaker

Model Topik Neural SageMaker

Memprediksi pelanggaran kecepatan mengemudi

Prediksi kanker payudara

Susun prediksi dari beberapa model

Inferensi asinkron SageMaker

TensorFlow menghadirkan model Anda sendiri

Scikit-belajar membawa model Anda sendiri

Bersihkan sumber daya

Kesimpulan

tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Terapkan BLOOM-176B dan OPT-30B di Amazon SageMaker dengan inferensi model besar Deep Learning Containers dan DeepSpeed

Mengumumkan Pratinjau Amazon SageMaker Profiler: Melacak dan memvisualisasikan data kinerja perangkat keras terperinci untuk beban kerja pelatihan model Anda | Layanan Web Amazon

Bagaimana Synamedia menggunakan Amazon Rekognition Video untuk membangun kemampuan pencarian video lanjutan untuk video berdurasi panjang

Visi komputer menggunakan set data sintetis dengan Label Kustom Amazon Rekognition dan Sistem Dassault 3DEXCITE

Baca halaman web dan sorot konten menggunakan Amazon Polly

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun