Gunakan Amazon SageMaker Data Wrangler Di Amazon SageMaker Studio Dengan Konfigurasi Siklus Hidup Default

Diterbitkan Ulang Oleh Plato

Followers: 0

Jika Anda menggunakan konfigurasi siklus hidup default untuk domain atau profil pengguna Anda di Studio Amazon SageMaker Dan gunakan Pengatur Data Amazon SageMaker untuk persiapan data, maka posting ini untuk Anda. Dalam posting ini, kami menunjukkan bagaimana Anda dapat membuat aliran Data Wrangler dan menggunakannya untuk persiapan data di lingkungan Studio dengan konfigurasi siklus hidup default.

Data Wrangler adalah kemampuan Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi pembelajaran mesin (ML) melalui antarmuka visual. Persiapan data adalah langkah penting dari siklus hidup ML, dan Data Wrangler menyediakan solusi menyeluruh untuk mengimpor, menjelajahi, mengubah, menampilkan, dan memproses data untuk ML dalam pengalaman visual dan kode rendah. Ini memungkinkan Anda terhubung dengan mudah dan cepat ke komponen AWS seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, dan Formasi Danau AWS, dan sumber eksternal seperti Snowflake dan DataBricks DeltaLake. Data Wrangler mendukung tipe data standar seperti CSV, JSON, ORC, dan Parket.

Aplikasi Studio adalah aplikasi interaktif yang memungkinkan antarmuka visual Studio, pembuatan kode, dan pengalaman menjalankan. Jenis aplikasi dapat berupa Jupyter Server atau Kernel Gateway:

Server Jupyter – Memungkinkan akses ke antarmuka visual untuk Studio. Setiap pengguna di Studio mendapatkan aplikasi Jupyter Server mereka sendiri.
Gerbang Kernel – Memungkinkan akses ke lingkungan dan kernel menjalankan kode untuk notebook dan terminal Studio Anda. Untuk informasi lebih lanjut, lihat Gerbang Kernel Jupyter.

Konfigurasi siklus hidup (LCC) adalah skrip shell untuk mengotomatiskan penyesuaian untuk lingkungan Studio Anda, seperti menginstal ekstensi JupyterLab, memuat set data sebelumnya, dan menyiapkan repositori kode sumber. Skrip LCC dipicu oleh peristiwa siklus hidup Studio, seperti memulai notebook Studio baru. Untuk menyetel konfigurasi siklus hidup sebagai default untuk domain atau profil pengguna Anda secara terprogram, Anda dapat membuat sumber daya baru atau memperbarui sumber daya yang ada. Untuk mengaitkan konfigurasi siklus hidup sebagai default, Anda harus terlebih dahulu membuat konfigurasi siklus hidup dengan mengikuti langkah-langkah di Membuat dan Mengaitkan Konfigurasi Siklus Hidup

Catatan: Konfigurasi siklus hidup default yang disiapkan di tingkat domain diwarisi oleh semua pengguna, sedangkan konfigurasi di tingkat pengguna dicakup untuk pengguna tertentu. Jika Anda menerapkan konfigurasi siklus hidup tingkat domain dan tingkat profil pengguna secara bersamaan, konfigurasi siklus hidup tingkat profil pengguna akan diutamakan dan diterapkan ke aplikasi terlepas dari konfigurasi siklus hidup apa yang diterapkan di tingkat domain. Untuk informasi lebih lanjut, lihat Menyetel Konfigurasi Siklus Hidup Default.

Data Wrangler menerima konfigurasi siklus hidup Kernel Gateway default, tetapi beberapa perintah yang ditentukan dalam konfigurasi siklus hidup Kernel Gateway default tidak berlaku untuk Data Wrangler, yang dapat menyebabkan Data Wrangler gagal dimulai. Tangkapan layar berikut menunjukkan contoh pesan kesalahan yang mungkin Anda dapatkan saat meluncurkan aliran Data Wrangler. Ini mungkin terjadi hanya dengan konfigurasi siklus hidup default dan tidak dengan konfigurasi siklus hidup.

Kesalahan Pengatur Data

Ikhtisar solusi

Pelanggan yang menggunakan konfigurasi siklus hidup default di Studio dapat mengikuti posting ini dan menggunakan blok kode yang disediakan dalam skrip konfigurasi siklus hidup untuk meluncurkan aplikasi Data Wrangler tanpa kesalahan.

Siapkan konfigurasi siklus hidup default

Untuk mengatur konfigurasi siklus hidup default, Anda harus menambahkannya ke DefaultResourceSpec dari jenis aplikasi yang sesuai. Perilaku konfigurasi siklus hidup Anda bergantung pada apakah itu ditambahkan ke DefaultResourceSpec dari aplikasi Jupyter Server atau Kernel Gateway:

Aplikasi Jupyter Server – Ketika ditambahkan ke DefaultResourceSpec dari aplikasi Jupyter Server, skrip konfigurasi siklus hidup default berjalan secara otomatis saat pengguna masuk ke Studio untuk pertama kalinya atau memulai ulang Studio. Anda dapat menggunakan ini untuk mengotomatiskan tindakan penyiapan satu kali untuk lingkungan pengembang Studio, seperti memasang ekstensi notebook atau menyiapkan repo GitHub. Untuk contoh ini, lihat Kustomisasi Amazon SageMaker Studio menggunakan Konfigurasi Siklus Hidup.
Aplikasi Kernel Gateway – Ketika ditambahkan ke DefaultResourceSpec dari aplikasi Kernel Gateway, Studio default untuk memilih skrip konfigurasi siklus hidup dari peluncur Studio. Anda dapat meluncurkan notebook atau terminal dengan skrip default atau memilih yang berbeda dari daftar konfigurasi siklus hidup.

Konfigurasi siklus hidup Kernel Gateway default yang ditentukan dalam DefaultResourceSpec berlaku untuk semua gambar Kernel Gateway di domain Studio kecuali Anda memilih skrip yang berbeda dari daftar yang disajikan di peluncur Studio.

Saat bekerja dengan konfigurasi siklus proses untuk Studio, Anda membuat konfigurasi siklus proses dan melampirkannya ke domain Studio atau profil pengguna Anda. Anda kemudian dapat meluncurkan aplikasi Jupyter Server atau Kernel Gateway untuk menggunakan konfigurasi siklus hidup.

Tabel berikut merangkum kesalahan yang mungkin Anda temui saat meluncurkan aplikasi Data Wrangler dengan konfigurasi siklus hidup default.

Level di mana Konfigurasi Siklus Hidup Diterapkan	Buat Aliran Data Wrangler Bekerja (atau) Kesalahan	Solusi
Domain	Kesalahan Permintaan Buruk	Terapkan skrip (lihat di bawah)
Profil pengguna	Kesalahan Permintaan Buruk	Terapkan skrip (lihat di bawah)
Aplikasi	Berfungsi—Tidak ada masalah	Tidak diperlukan

Saat Anda menggunakan konfigurasi siklus hidup default yang terkait dengan Studio dan Data Wrangler (aplikasi Kernel Gateway), Anda mungkin mengalami kegagalan aplikasi Kernel Gateway. Dalam posting ini, kami menunjukkan cara mengatur konfigurasi siklus hidup default dengan benar untuk mengecualikan perintah yang berjalan di aplikasi Data Wrangler sehingga Anda tidak mengalami kegagalan aplikasi Kernel Gateway.

Katakanlah Anda ingin menginstal a git-clone-repo skrip sebagai konfigurasi siklus hidup default yang memeriksa repositori Git di bawah folder beranda pengguna secara otomatis saat server Jupyter dimulai. Mari kita lihat setiap skenario penerapan konfigurasi siklus hidup (domain Studio, profil pengguna, atau tingkat aplikasi).

Terapkan konfigurasi siklus hidup di domain Studio atau tingkat profil pengguna

Untuk menerapkan konfigurasi siklus hidup Kernel Gateway default di domain Studio atau tingkat profil pengguna, selesaikan langkah-langkah di bagian ini. Kami mulai dengan instruksi untuk tingkat profil pengguna.

Dalam skrip konfigurasi siklus hidup Anda, Anda harus menyertakan blok kode berikut yang memeriksa dan melewati aplikasi Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Sebagai contoh, mari kita gunakan skrip berikut seperti aslinya (perhatikan bahwa folder untuk mengkloning repo diubah menjadi /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Skrip baru yang dimodifikasi terlihat seperti berikut:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Anda dapat menyimpan skrip ini sebagai git_command_test.sh.

Sekarang Anda menjalankan serangkaian perintah di terminal atau command prompt Anda. Anda harus mengonfigurasi Antarmuka Baris Perintah AWS (AWS CLI) untuk berinteraksi dengan AWS. Jika Anda belum menyiapkan AWS CLI, lihat Mengonfigurasi AWS CLI.

Konversikan Anda git_command_test.sh file ke dalam format Base64. Persyaratan ini mencegah kesalahan karena pengkodean spasi dan jeda baris.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Buat konfigurasi siklus proses Studio. Perintah berikut membuat konfigurasi siklus hidup yang berjalan saat peluncuran aplikasi Kernel Gateway terkait:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Gunakan panggilan API berikut untuk membuat profil pengguna baru dengan konfigurasi siklus hidup terkait:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Atau, jika Anda ingin membuat domain Studio untuk mengaitkan konfigurasi siklus hidup Anda di tingkat domain, atau memperbarui profil atau domain pengguna, Anda dapat mengikuti langkah-langkah di Menyetel Konfigurasi Siklus Hidup Default.

Sekarang Anda dapat meluncurkan aplikasi Studio Anda dari Panel Kontrol SageMaker.
Di lingkungan Studio Anda, di File menu, pilih New dan Aliran Data Wrangler.Alur Data Wrangler baru akan terbuka tanpa masalah.
Untuk memvalidasi klon Git, Anda dapat membuka Peluncur baru di Studio.
Bawah Notebook dan sumber daya komputasi, pilih notebook Python 3 dan Ilmu Data SageMaker untuk memulai skrip Anda sebagai skrip konfigurasi siklus hidup default Anda.

Anda dapat melihat Git dikloning ke /root dalam tangkapan layar berikut.

Git dikloning ke /root

Kami telah berhasil menerapkan konfigurasi siklus hidup Kernel default di tingkat profil pengguna dan membuat aliran Data Wrangler. Untuk mengonfigurasi di tingkat domain Studio, satu-satunya perubahan adalah alih-alih membuat profil pengguna, Anda meneruskan konfigurasi siklus hidup ARN dalam buat-domain panggilan.

Terapkan konfigurasi siklus hidup di tingkat aplikasi

Jika Anda menerapkan konfigurasi siklus hidup Kernel Gateway default di tingkat aplikasi, Anda tidak akan mengalami masalah karena Wrangler Data melewati konfigurasi siklus hidup yang diterapkan di tingkat aplikasi.

Kesimpulan

Dalam posting ini, kami menunjukkan cara mengonfigurasi konfigurasi siklus hidup default Anda dengan benar untuk Studio saat Anda menggunakan Data Wrangler untuk persiapan data dan persyaratan visualisasi.

Untuk meringkas, jika Anda perlu menggunakan default konfigurasi siklus hidup untuk Studio untuk mengotomatiskan penyesuaian untuk lingkungan Studio Anda dan menggunakan Data Wrangler untuk persiapan data, Anda dapat menerapkan konfigurasi siklus hidup Kernel Gateway default di profil pengguna atau tingkat domain Studio dengan blok kode yang sesuai disertakan dalam konfigurasi siklus hidup Anda sehingga konfigurasi siklus hidup default memeriksanya dan melewati aplikasi Data Wrangler Kernel Gateway.

Untuk informasi lebih lanjut, lihat sumber daya berikut:

Tentang Penulis

Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia bersemangat tentang cloud dan pembelajaran mesin. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.

Vicky Zhang adalah Insinyur Pengembangan Perangkat Lunak di Amazon SageMaker. Dia bergairah tentang pemecahan masalah. Di waktu luangnya, ia menikmati menonton film detektif dan bermain bulu tangkis.

Rahul Nabera adalah Konsultan Analisis Data di AWS Professional Services. Pekerjaannya saat ini berfokus pada memungkinkan pelanggan membangun data dan beban kerja pembelajaran mesin mereka di AWS. Di waktu luangnya, ia menikmati bermain kriket dan bola voli.

Stempel Waktu: Juli 5, 2022

Stempel Waktu: Juni 27, 2022

Gunakan Amazon SageMaker Data Wrangler di Amazon SageMaker Studio dengan konfigurasi siklus hidup default

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Siapkan konfigurasi siklus hidup default

Terapkan konfigurasi siklus hidup di domain Studio atau tingkat profil pengguna

Terapkan konfigurasi siklus hidup di tingkat aplikasi

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Kurangi biaya inferensi Amazon SageMaker dengan AWS Graviton

Penyempurnaan LLaMA 2 yang cepat dan hemat biaya dengan AWS Trainium | Layanan Web Amazon

Tingkatkan pengalaman penelepon dengan petunjuk di Amazon Lex

Terapkan penyembunyian kata-kata kotor di Amazon Translate

Otomatiskan pra-pelabelan PDF untuk Amazon Comprehend | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun