Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Operasikan notebook Amazon SageMaker Studio Anda sebagai tugas notebook terjadwal

Studio Amazon SageMaker menyediakan solusi terkelola sepenuhnya bagi ilmuwan data untuk membangun, melatih, dan menerapkan model machine learning (ML) secara interaktif. Selain pengalaman ML interaktif, pekerja data juga mencari solusi untuk menjalankan notebook sebagai pekerjaan singkat tanpa perlu memfaktorkan ulang kode sebagai modul Python atau mempelajari alat DevOps dan praktik terbaik untuk mengotomatiskan infrastruktur penerapannya. Beberapa kasus penggunaan umum untuk melakukan hal ini meliputi:

  • Menjalankan inferensi model secara teratur untuk menghasilkan laporan
  • Meningkatkan langkah rekayasa fitur setelah diuji di Studio terhadap subkumpulan data pada instans kecil
  • Melatih ulang dan menggunakan model pada beberapa irama
  • Menganalisis tim Anda Amazon SageMaker penggunaan pada irama biasa

Sebelumnya, saat data scientist ingin mengambil kode yang mereka buat secara interaktif di notebook dan menjalankannya sebagai tugas batch, mereka dihadapkan pada kurva pembelajaran yang curam menggunakan Pipa Amazon SageMaker, AWS Lambda, Jembatan Acara Amazon, atau solusi lain yang sulit diatur, digunakan, dan dikelola.

Dengan Pekerjaan buku catatan SageMaker, kini Anda dapat menjalankan buku catatan apa adanya atau dengan cara berparameter hanya dengan beberapa klik mudah dari SageMaker Studio atau Lab Studio SageMaker antarmuka. Anda dapat menjalankan buku catatan ini sesuai jadwal atau segera. Pengguna akhir tidak perlu mengubah kode notebook mereka yang sudah ada. Saat pekerjaan selesai, Anda dapat melihat sel notebook yang terisi, termasuk visualisasi apa pun!

Dalam postingan ini, kami membagikan cara mengoperasionalkan notebook SageMaker Studio Anda sebagai pekerjaan notebook terjadwal.

Ikhtisar solusi

Diagram berikut mengilustrasikan arsitektur solusi kami. Kami menggunakan ekstensi SageMaker yang sudah diinstal sebelumnya untuk menjalankan notebook sebagai pekerjaan segera atau sesuai jadwal.

Di bagian berikut, kami menelusuri langkah-langkah untuk membuat buku catatan, membuat parameter sel, menyesuaikan opsi tambahan, dan menjadwalkan pekerjaan Anda. Kami juga menyertakan contoh kasus penggunaan.

Prasyarat

Untuk menggunakan pekerjaan notebook SageMaker, Anda harus menjalankan aplikasi JupyterLab 3 JupyterServer di dalam Studio. Untuk informasi selengkapnya tentang cara memutakhirkan ke JupyterLab 3, lihat Lihat dan perbarui versi aplikasi JupyterLab dari konsol. Pastikan untuk Matikan dan Perbarui SageMaker Studio untuk mengambil update terbaru.

Untuk menentukan definisi pekerjaan yang menjalankan buku catatan sesuai jadwal, Anda mungkin perlu menambahkan izin tambahan ke peran eksekusi SageMaker.

Pertama, tambahkan hubungan kepercayaan ke peran eksekusi SageMaker Anda yang memungkinkan events.amazonaws.com untuk mengambil peran Anda:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        },
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "events.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

Selain itu, Anda mungkin perlu membuat dan melampirkan kebijakan sebaris ke peran eksekusi Anda. Kebijakan di bawah ini merupakan pelengkap dari kebijakan yang sangat permisif AmazonSageMakerFullAccess aturan. Untuk kumpulan izin yang lengkap dan minimal, lihat Instal Kebijakan dan Izin.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": [
                "events:TagResource",
                "events:DeleteRule",
                "events:PutTargets",
                "events:DescribeRule",
                "events:PutRule",
                "events:RemoveTargets",
                "events:DisableRule",
                "events:EnableRule"
            ],
            "Resource": "*",
            "Condition": {
              "StringEquals": {
                "aws:ResourceTag/sagemaker:is-scheduling-notebook-job": "true"
              }
            }
        },
        {
            "Sid": "VisualEditor1",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/*",
            "Condition": {
                "StringLike": {
                    "iam:PassedToService": "events.amazonaws.com"
                }
            }
        },
        {
            "Sid": "VisualEditor2",
            "Effect": "Allow",
            "Action": "sagemaker:ListTags",
            "Resource": "arn:aws:sagemaker:*:*:user-profile/*/*"
        }
    ]
}

Buat pekerjaan buku catatan

Untuk mengoperasikan notebook Anda sebagai pekerjaan notebook SageMaker, pilih Buat pekerjaan buku catatan icon.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Alternatifnya, Anda dapat memilih (klik kanan) notebook Anda di sistem file dan pilih Buat Pekerjaan Notebook.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dalam majalah Ciptakan pekerjaan di bagian ini, cukup pilih jenis instans yang tepat untuk tugas terjadwal Anda berdasarkan beban kerja Anda: instans standar, instans yang dioptimalkan komputasi, atau instans komputasi yang dipercepat yang berisi GPU. Anda dapat memilih salah satu instans yang tersedia untuk tugas pelatihan SageMaker. Untuk daftar lengkap instans yang tersedia, lihat Harga Amazon SageMaker.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Saat pekerjaan selesai, Anda bisa melihat file notebook keluaran dengan sel yang diisi, serta log yang mendasari dari pekerjaan yang dijalankan.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Parameterisasikan sel

Saat memindahkan notebook ke alur kerja produksi, penting untuk dapat menggunakan kembali notebook yang sama dengan kumpulan parameter yang berbeda untuk modularitas. Misalnya, Anda mungkin ingin membuat parameter lokasi set data atau hyperparameter model Anda sehingga Anda dapat menggunakan kembali notebook yang sama untuk berbagai pelatihan model yang berbeda. Pekerjaan notebook SageMaker mendukung ini melalui tag sel. Cukup pilih ikon roda gigi ganda di panel kanan dan pilih Tambahkan Tandai. Kemudian beri label tag sebagai parameter.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Secara default, menjalankan pekerjaan notebook menggunakan nilai parameter yang ditentukan di notebook, tetapi sebagai alternatif, Anda dapat memodifikasinya sebagai konfigurasi untuk pekerjaan notebook Anda.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Konfigurasikan opsi tambahan

Saat membuat pekerjaan buku catatan, Anda dapat memperluas Opsi tambahan bagian untuk menyesuaikan definisi pekerjaan Anda. Studio akan secara otomatis mendeteksi image atau kernel yang Anda gunakan di notebook Anda dan memilihnya terlebih dahulu untuk Anda. Pastikan Anda telah memvalidasi pilihan ini.

Anda juga dapat menentukan variabel lingkungan atau skrip startup untuk menyesuaikan lingkungan menjalankan notebook Anda. Untuk daftar lengkap konfigurasi, lihat Opsi tambahan.

Jadwalkan pekerjaan Anda

Untuk menjadwalkan pekerjaan Anda, pilih Jalankan sesuai jadwal dan atur interval dan waktu yang sesuai. Kemudian Anda dapat memilih Pekerjaan Buku Catatan tab yang terlihat setelah memilih ikon beranda. Setelah notebook dimuat, pilih Definisi Pekerjaan Notebook tab untuk menjeda atau menghapus jadwal Anda.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Contoh kasus penggunaan

Sebagai contoh, kami menampilkan alur kerja ML end-to-end yang menyiapkan data dari sumber kebenaran dasar, melatih model yang diperbarui dari jangka waktu tersebut, lalu menjalankan inferensi pada data terbaru untuk menghasilkan wawasan yang dapat ditindaklanjuti. Dalam praktiknya, Anda mungkin menjalankan alur kerja end-to-end yang lengkap, atau hanya mengoperasionalkan satu langkah alur kerja Anda. Anda dapat menjadwalkan sebuah Lem AWS sesi interaktif untuk persiapan data harian, atau jalankan tugas inferensi batch yang menghasilkan hasil grafis langsung di notebook keluaran Anda.

Buku catatan lengkap untuk contoh ini dapat ditemukan di kami SageMaker Contoh repositori GitHub. Kasus penggunaan mengasumsikan bahwa kami adalah perusahaan telekomunikasi yang ingin menjadwalkan notebook yang memprediksi kemungkinan churn pelanggan berdasarkan model yang dilatih dengan data terbaru yang kami miliki.

Untuk memulai, kami mengumpulkan data pelanggan terbaru yang tersedia dan melakukan beberapa pemrosesan sebelumnya:

import pandas as pd
from synthetic_data import generate_data

previous_two_weeks_data = generate_data(5000, label_known=True)
todays_data = generate_data(300, label_known=False)

processed_prior_data = process_data(previous_two_weeks_data, label_known=True)
processed_todays_data = process_data(todays_data, label_known=False)

Kami melatih model baru kami pada data pelatihan yang diperbarui ini untuk membuat prediksi yang akurat todays_data:

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, confusion_matrix, ConfusionMatrixDisplay

y = np.ravel(processed_prior_data[["Churn"]])
x = processed_prior_data.drop(["Churn"], axis=1)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

clf = RandomForestClassifier(n_estimators=int(number_rf_estimators), criterion="gini")
clf.fit(x_train, y_train)

Karena kita akan menjadwalkan notebook ini sebagai laporan harian, kita ingin mengetahui seberapa bagus performa model yang disegarkan pada set validasi sehingga kita dapat yakin dengan prediksinya di masa mendatang. Hasil di tangkapan layar berikut berasal dari laporan inferensi terjadwal kami.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Terakhir, Anda ingin merekam hasil prediksi dari data hari ini ke dalam database sehingga tindakan dapat diambil berdasarkan hasil model ini.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Setelah notebook dipahami, jangan ragu untuk menjalankan ini sebagai pekerjaan singkat menggunakan Lari sekarang opsi yang dijelaskan sebelumnya atau uji fungsionalitas penjadwalan.

Membersihkan

Jika Anda mengikuti contoh kami, pastikan untuk menjeda atau menghapus jadwal pekerjaan buku catatan Anda untuk menghindari biaya berkelanjutan.

Kesimpulan

Menghadirkan notebook ke produksi dengan pekerjaan notebook SageMaker sangat menyederhanakan pekerjaan berat yang tidak dapat dibedakan yang diperlukan oleh pekerja data. Baik Anda menjadwalkan alur kerja ML end-to-end atau bagian dari teka-teki, kami mendorong Anda untuk membuat beberapa buku catatan dalam produksi menggunakan SageMaker Studio atau SageMaker Studio Lab! Untuk mempelajari lebih lanjut, lihat Alur Kerja Berbasis Notebook.


Tentang penulis

Sean MorganSean Morgan adalah Arsitek Solusi ML Senior di AWS. Dia memiliki pengalaman di bidang penelitian semikonduktor dan akademik, dan menggunakan pengalamannya untuk membantu pelanggan mencapai tujuan mereka di AWS. Di waktu luangnya, Sean adalah kontributor/pengelola open source aktif dan memimpin grup minat khusus untuk Addons TensorFlow.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Sumedha Swamy adalah Manajer Produk Utama di Amazon Web Services. Dia memimpin tim SageMaker Studio untuk membuatnya menjadi IDE pilihan untuk ilmu data interaktif dan alur kerja rekayasa data. Dia telah menghabiskan 15 tahun terakhir membangun produk konsumen dan perusahaan yang terobsesi dengan pelanggan menggunakan Machine Learning. Di waktu luangnya, dia suka memotret geologi yang menakjubkan di Barat Daya Amerika.

Operasikan notebook Amazon SageMaker Studio Anda sebagai pekerjaan notebook terjadwal PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Edward Matahari adalah SDE Senior yang bekerja untuk SageMaker Studio di Amazon Web Services. Dia fokus membangun solusi ML interaktif dan menyederhanakan pengalaman pelanggan untuk mengintegrasikan SageMaker Studio dengan teknologi populer dalam rekayasa data dan ekosistem ML. Di waktu luangnya, Edward adalah penggemar berkemah, hiking, dan memancing, serta menikmati menghabiskan waktu bersama keluarganya.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS