Jika Anda menggunakan konfigurasi siklus hidup default untuk domain atau profil pengguna Anda di Studio Amazon SageMaker Dan gunakan Pengatur Data Amazon SageMaker untuk persiapan data, maka posting ini untuk Anda. Dalam posting ini, kami menunjukkan bagaimana Anda dapat membuat aliran Data Wrangler dan menggunakannya untuk persiapan data di lingkungan Studio dengan konfigurasi siklus hidup default.
Data Wrangler adalah kemampuan Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi pembelajaran mesin (ML) melalui antarmuka visual. Persiapan data adalah langkah penting dari siklus hidup ML, dan Data Wrangler menyediakan solusi menyeluruh untuk mengimpor, menjelajahi, mengubah, menampilkan, dan memproses data untuk ML dalam pengalaman visual dan kode rendah. Ini memungkinkan Anda terhubung dengan mudah dan cepat ke komponen AWS seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, dan Formasi Danau AWS, dan sumber eksternal seperti Snowflake dan DataBricks DeltaLake. Data Wrangler mendukung tipe data standar seperti CSV, JSON, ORC, dan Parket.
Aplikasi Studio adalah aplikasi interaktif yang memungkinkan antarmuka visual Studio, pembuatan kode, dan pengalaman menjalankan. Jenis aplikasi dapat berupa Jupyter Server atau Kernel Gateway:
- Server Jupyter โ Memungkinkan akses ke antarmuka visual untuk Studio. Setiap pengguna di Studio mendapatkan aplikasi Jupyter Server mereka sendiri.
- Gerbang Kernel โ Memungkinkan akses ke lingkungan dan kernel menjalankan kode untuk notebook dan terminal Studio Anda. Untuk informasi lebih lanjut, lihat Gerbang Kernel Jupyter.
Konfigurasi siklus hidup (LCC) adalah skrip shell untuk mengotomatiskan penyesuaian untuk lingkungan Studio Anda, seperti menginstal ekstensi JupyterLab, memuat set data sebelumnya, dan menyiapkan repositori kode sumber. Skrip LCC dipicu oleh peristiwa siklus hidup Studio, seperti memulai notebook Studio baru. Untuk menyetel konfigurasi siklus hidup sebagai default untuk domain atau profil pengguna Anda secara terprogram, Anda dapat membuat sumber daya baru atau memperbarui sumber daya yang ada. Untuk mengaitkan konfigurasi siklus hidup sebagai default, Anda harus terlebih dahulu membuat konfigurasi siklus hidup dengan mengikuti langkah-langkah di Membuat dan Mengaitkan Konfigurasi Siklus Hidup
Catatan: Konfigurasi siklus hidup default yang disiapkan di tingkat domain diwarisi oleh semua pengguna, sedangkan konfigurasi di tingkat pengguna dicakup untuk pengguna tertentu. Jika Anda menerapkan konfigurasi siklus hidup tingkat domain dan tingkat profil pengguna secara bersamaan, konfigurasi siklus hidup tingkat profil pengguna akan diutamakan dan diterapkan ke aplikasi terlepas dari konfigurasi siklus hidup apa yang diterapkan di tingkat domain. Untuk informasi lebih lanjut, lihat Menyetel Konfigurasi Siklus Hidup Default.
Data Wrangler menerima konfigurasi siklus hidup Kernel Gateway default, tetapi beberapa perintah yang ditentukan dalam konfigurasi siklus hidup Kernel Gateway default tidak berlaku untuk Data Wrangler, yang dapat menyebabkan Data Wrangler gagal dimulai. Tangkapan layar berikut menunjukkan contoh pesan kesalahan yang mungkin Anda dapatkan saat meluncurkan aliran Data Wrangler. Ini mungkin terjadi hanya dengan konfigurasi siklus hidup default dan tidak dengan konfigurasi siklus hidup.
Ikhtisar solusi
Pelanggan yang menggunakan konfigurasi siklus hidup default di Studio dapat mengikuti posting ini dan menggunakan blok kode yang disediakan dalam skrip konfigurasi siklus hidup untuk meluncurkan aplikasi Data Wrangler tanpa kesalahan.
Siapkan konfigurasi siklus hidup default
Untuk mengatur konfigurasi siklus hidup default, Anda harus menambahkannya ke DefaultResourceSpec
dari jenis aplikasi yang sesuai. Perilaku konfigurasi siklus hidup Anda bergantung pada apakah itu ditambahkan ke DefaultResourceSpec
dari aplikasi Jupyter Server atau Kernel Gateway:
- Aplikasi Jupyter Server โ Ketika ditambahkan ke
DefaultResourceSpec
dari aplikasi Jupyter Server, skrip konfigurasi siklus hidup default berjalan secara otomatis saat pengguna masuk ke Studio untuk pertama kalinya atau memulai ulang Studio. Anda dapat menggunakan ini untuk mengotomatiskan tindakan penyiapan satu kali untuk lingkungan pengembang Studio, seperti memasang ekstensi notebook atau menyiapkan repo GitHub. Untuk contoh ini, lihat Kustomisasi Amazon SageMaker Studio menggunakan Konfigurasi Siklus Hidup. - Aplikasi Kernel Gateway โ Ketika ditambahkan ke
DefaultResourceSpec
dari aplikasi Kernel Gateway, Studio default untuk memilih skrip konfigurasi siklus hidup dari peluncur Studio. Anda dapat meluncurkan notebook atau terminal dengan skrip default atau memilih yang berbeda dari daftar konfigurasi siklus hidup.
Konfigurasi siklus hidup Kernel Gateway default yang ditentukan dalam DefaultResourceSpec
berlaku untuk semua gambar Kernel Gateway di domain Studio kecuali Anda memilih skrip yang berbeda dari daftar yang disajikan di peluncur Studio.
Saat bekerja dengan konfigurasi siklus proses untuk Studio, Anda membuat konfigurasi siklus proses dan melampirkannya ke domain Studio atau profil pengguna Anda. Anda kemudian dapat meluncurkan aplikasi Jupyter Server atau Kernel Gateway untuk menggunakan konfigurasi siklus hidup.
Tabel berikut merangkum kesalahan yang mungkin Anda temui saat meluncurkan aplikasi Data Wrangler dengan konfigurasi siklus hidup default.
Level di mana Konfigurasi Siklus Hidup Diterapkan |
Buat Aliran Data Wrangler Bekerja (atau) Kesalahan |
Solusi |
Domain | Kesalahan Permintaan Buruk | Terapkan skrip (lihat di bawah) |
Profil pengguna | Kesalahan Permintaan Buruk | Terapkan skrip (lihat di bawah) |
Aplikasi | BerfungsiโTidak ada masalah | Tidak diperlukan |
Saat Anda menggunakan konfigurasi siklus hidup default yang terkait dengan Studio dan Data Wrangler (aplikasi Kernel Gateway), Anda mungkin mengalami kegagalan aplikasi Kernel Gateway. Dalam posting ini, kami menunjukkan cara mengatur konfigurasi siklus hidup default dengan benar untuk mengecualikan perintah yang berjalan di aplikasi Data Wrangler sehingga Anda tidak mengalami kegagalan aplikasi Kernel Gateway.
Katakanlah Anda ingin menginstal a git-clone-repo skrip sebagai konfigurasi siklus hidup default yang memeriksa repositori Git di bawah folder beranda pengguna secara otomatis saat server Jupyter dimulai. Mari kita lihat setiap skenario penerapan konfigurasi siklus hidup (domain Studio, profil pengguna, atau tingkat aplikasi).
Terapkan konfigurasi siklus hidup di domain Studio atau tingkat profil pengguna
Untuk menerapkan konfigurasi siklus hidup Kernel Gateway default di domain Studio atau tingkat profil pengguna, selesaikan langkah-langkah di bagian ini. Kami mulai dengan instruksi untuk tingkat profil pengguna.
Dalam skrip konfigurasi siklus hidup Anda, Anda harus menyertakan blok kode berikut yang memeriksa dan melewati aplikasi Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block โ this contains some pip install, etc>
fi
Sebagai contoh, mari kita gunakan skrip berikut seperti aslinya (perhatikan bahwa folder untuk mengkloning repo diubah menjadi /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Skrip baru yang dimodifikasi terlihat seperti berikut:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Anda dapat menyimpan skrip ini sebagai git_command_test.sh
.
Sekarang Anda menjalankan serangkaian perintah di terminal atau command prompt Anda. Anda harus mengonfigurasi Antarmuka Baris Perintah AWS (AWS CLI) untuk berinteraksi dengan AWS. Jika Anda belum menyiapkan AWS CLI, lihat Mengonfigurasi AWS CLI.
- Konversikan Anda
git_command_test.sh
file ke dalam format Base64. Persyaratan ini mencegah kesalahan karena pengkodean spasi dan jeda baris. - Buat konfigurasi siklus proses Studio. Perintah berikut membuat konfigurasi siklus hidup yang berjalan saat peluncuran aplikasi Kernel Gateway terkait:
- Gunakan panggilan API berikut untuk membuat profil pengguna baru dengan konfigurasi siklus hidup terkait:
Atau, jika Anda ingin membuat domain Studio untuk mengaitkan konfigurasi siklus hidup Anda di tingkat domain, atau memperbarui profil atau domain pengguna, Anda dapat mengikuti langkah-langkah di Menyetel Konfigurasi Siklus Hidup Default.
- Sekarang Anda dapat meluncurkan aplikasi Studio Anda dari Panel Kontrol SageMaker.
- Di lingkungan Studio Anda, di File menu, pilih New dan Aliran Data Wrangler.Alur Data Wrangler baru akan terbuka tanpa masalah.
- Untuk memvalidasi klon Git, Anda dapat membuka Peluncur baru di Studio.
- Bawah Notebook dan sumber daya komputasi, pilih notebook Python 3 dan Ilmu Data SageMaker untuk memulai skrip Anda sebagai skrip konfigurasi siklus hidup default Anda.
Anda dapat melihat Git dikloning ke /root
dalam tangkapan layar berikut.
Kami telah berhasil menerapkan konfigurasi siklus hidup Kernel default di tingkat profil pengguna dan membuat aliran Data Wrangler. Untuk mengonfigurasi di tingkat domain Studio, satu-satunya perubahan adalah alih-alih membuat profil pengguna, Anda meneruskan konfigurasi siklus hidup ARN dalam buat-domain panggilan.
Terapkan konfigurasi siklus hidup di tingkat aplikasi
Jika Anda menerapkan konfigurasi siklus hidup Kernel Gateway default di tingkat aplikasi, Anda tidak akan mengalami masalah karena Wrangler Data melewati konfigurasi siklus hidup yang diterapkan di tingkat aplikasi.
Kesimpulan
Dalam posting ini, kami menunjukkan cara mengonfigurasi konfigurasi siklus hidup default Anda dengan benar untuk Studio saat Anda menggunakan Data Wrangler untuk persiapan data dan persyaratan visualisasi.
Untuk meringkas, jika Anda perlu menggunakan default konfigurasi siklus hidup untuk Studio untuk mengotomatiskan penyesuaian untuk lingkungan Studio Anda dan menggunakan Data Wrangler untuk persiapan data, Anda dapat menerapkan konfigurasi siklus hidup Kernel Gateway default di profil pengguna atau tingkat domain Studio dengan blok kode yang sesuai disertakan dalam konfigurasi siklus hidup Anda sehingga konfigurasi siklus hidup default memeriksanya dan melewati aplikasi Data Wrangler Kernel Gateway.
Untuk informasi lebih lanjut, lihat sumber daya berikut:
- Dokumentasi konfigurasi siklus hidup Amazon SageMaker Studio
- Studio Amazon SageMaker
- Repositori contoh skrip konfigurasi siklus hidup
- Men-debug Konfigurasi Siklus Hidup
Tentang Penulis
Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia bersemangat tentang cloud dan pembelajaran mesin. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.
Vicky Zhang adalah Insinyur Pengembangan Perangkat Lunak di Amazon SageMaker. Dia bergairah tentang pemecahan masalah. Di waktu luangnya, ia menikmati menonton film detektif dan bermain bulu tangkis.
Rahul Nabera adalah Konsultan Analisis Data di AWS Professional Services. Pekerjaannya saat ini berfokus pada memungkinkan pelanggan membangun data dan beban kerja pembelajaran mesin mereka di AWS. Di waktu luangnya, ia menikmati bermain kriket dan bola voli.
- Coinsmart. Pertukaran Bitcoin dan Crypto Terbaik Eropa.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. AKSES GRATIS.
- CryptoHawk. Radar Altcoin. Uji Coba Gratis.
- Sumber: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Tentang Kami
- mengakses
- Akun
- tindakan
- menambahkan
- Semua
- Amazon
- analisis
- api
- aplikasi
- berlaku
- Aplikasi
- aplikasi
- terapan
- Mendaftar
- Menerapkan
- sesuai
- aplikasi
- Menghubungkan
- terkait
- mengotomatisasikan
- secara otomatis
- AWS
- karena
- di bawah
- Memblokir
- batas
- istirahat
- membangun
- panggilan
- Menyebabkan
- perubahan
- Cek
- Pilih
- awan
- kode
- lengkap
- komponen
- menghitung
- konfigurasi
- Terhubung
- konsultan
- mengandung
- kontrol
- membuat
- dibuat
- menciptakan
- membuat
- jangkrik
- sangat penting
- terbaru
- pelanggan
- data
- Data Analytics
- mendemonstrasikan
- tergantung
- menyebarkan
- Mendesain
- Pengembang
- Pengembangan
- berbeda
- domain
- setiap
- mudah
- gema
- aktif
- memungkinkan
- memungkinkan
- ujung ke ujung
- insinyur
- Insinyur
- Lingkungan Hidup
- peristiwa
- contoh
- ada
- pengalaman
- menyelidiki
- ekstensi
- Kegagalan
- lebih cepat
- Pertama
- pertama kali
- aliran
- berfokus
- mengikuti
- berikut
- format
- dari
- pintu gerbang
- pergi
- GitHub
- terjadi
- tinggi
- di sini
- Beranda
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- gambar
- gambar
- memasukkan
- termasuk
- informasi
- install
- contoh
- interaktif
- Antarmuka
- masalah
- IT
- jalankan
- peluncuran
- pengetahuan
- Tingkat
- baris
- Daftar
- melihat
- mesin
- Mesin belajar
- MEMBUAT
- mengelola
- manajer
- mungkin
- ML
- model
- lebih
- bioskop
- buku catatan
- Buka
- operasi
- asli
- sendiri
- panel
- bergairah
- bermain
- Mempersiapkan
- Utama
- Masalah
- proses
- proses
- profesional
- Profil
- menyediakan
- menyediakan
- segera
- gudang
- permintaan
- Persyaratan
- sumber
- Sumber
- Run
- berjalan
- sama
- Save
- Ilmu
- ilmuwan
- Seri
- Layanan
- set
- pengaturan
- penyiapan
- Kulit
- Menunjukkan
- Sederhana
- So
- Perangkat lunak
- pengembangan perangkat lunak
- padat
- larutan
- Memecahkan
- beberapa
- kode sumber
- spesialis
- tertentu
- standar
- awal
- dimulai
- penyimpanan
- studio
- berhasil
- pendukung
- Mendukung
- Teknis
- terminal
- uji
- Grafik
- waktu
- Mengubah
- dipicu
- jenis
- bawah
- Memperbarui
- menggunakan
- Pengguna
- visualisasi
- Apa
- apakah
- dalam
- tanpa
- Kerja
- bekerja
- Anda