Data scientist memerlukan lingkungan yang konsisten dan dapat direproduksi untuk machine learning (ML) dan beban kerja data science yang memungkinkan pengelolaan dependensi dan aman. Kontainer Pembelajaran Jauh AWS sudah menyediakan image Docker bawaan untuk melatih dan menyajikan model dalam framework umum seperti TensorFlow, PyTorch, dan MXNet. Untuk menyempurnakan pengalaman ini, kami mengumumkan beta publik distribusi sumber terbuka SageMaker di 2023 JupyterCon. Hal ini memberikan pengalaman ML end-to-end terpadu di seluruh developer ML dengan berbagai tingkat keahlian. Pengembang tidak perlu lagi beralih di antara wadah kerangka kerja yang berbeda untuk eksperimen, atau saat mereka berpindah dari lingkungan JupyterLab lokal dan notebook SageMaker ke pekerjaan produksi di SageMaker. Distribusi SageMaker sumber terbuka mendukung paket dan pustaka paling umum untuk ilmu data, ML, dan visualisasi, seperti TensorFlow, PyTorch, Scikit-learn, Pandas, dan Matplotlib. Anda dapat mulai menggunakan wadah dari Galeri Publik Amazon ECR mulai hari ini.
Dalam postingan ini, kami menunjukkan cara menggunakan distribusi sumber terbuka SageMaker untuk bereksperimen dengan cepat di lingkungan lokal Anda dan dengan mudah mempromosikannya ke pekerjaan di SageMaker.
Ikhtisar solusi
Sebagai contoh, kami menampilkan pelatihan model klasifikasi gambar menggunakan PyTorch. Kami menggunakan KMNIS kumpulan data tersedia untuk umum di PyTorch. Kami melatih model jaringan saraf, menguji kinerja model, dan terakhir mencetak pelatihan dan menguji kerugian. Buku catatan lengkap untuk contoh ini tersedia di Repositori contoh SageMaker Studio Lab. Kami memulai eksperimen di laptop lokal menggunakan distribusi sumber terbuka, pindahkan ke Studio Amazon SageMaker untuk menggunakan instans yang lebih besar, lalu jadwalkan buku catatan sebagai tugas buku catatan.
Prasyarat
Anda memerlukan prasyarat berikut:
Siapkan lingkungan lokal Anda
Anda dapat langsung mulai menggunakan distribusi sumber terbuka di laptop lokal Anda. Untuk memulai JupyterLab, jalankan perintah berikut di terminal Anda:
Anda bisa mengganti ECR_IMAGE_ID
dengan salah satu tag gambar yang tersedia di Galeri Publik Amazon ECR, atau pilih latest-gpu
tag jika Anda menggunakan mesin yang mendukung GPU.
Perintah ini akan memulai JupyterLab dan memberikan URL di terminal, seperti http://127.0.0.1:8888/lab?token=<token>
. Salin tautan dan masukkan di browser pilihan Anda untuk memulai JupyterLab.
Siapkan Studio
Studio adalah lingkungan pengembangan terintegrasi (IDE) end-to-end untuk ML yang memungkinkan developer dan ilmuwan data membangun, melatih, menerapkan, dan memantau model ML dalam skala besar. Studio menyediakan daftar panjang gambar pihak pertama dengan kerangka kerja dan paket umum, seperti Ilmu Data, TensorFlow, PyTorch, dan Spark. Gambar ini memudahkan ilmuwan data untuk memulai ML hanya dengan memilih kerangka kerja dan jenis instans pilihan mereka untuk komputasi.
Anda sekarang dapat menggunakan distribusi sumber terbuka SageMaker di Studio menggunakan milik Studio membawa gambar Anda sendiri fitur. Untuk menambahkan distribusi sumber terbuka ke domain SageMaker Anda, selesaikan langkah-langkah berikut:
- Tambahkan distribusi sumber terbuka ke akun Anda Registry Kontainer Elastis Amazon (Amazon ECR) dengan menjalankan perintah berikut di terminal Anda:
- Buat gambar SageMaker dan lampirkan gambar ke domain Studio:
- Di konsol SageMaker, luncurkan Studio dengan memilih domain Anda dan profil pengguna yang ada.
- Secara opsional, mulai ulang Studio dengan mengikuti langkah-langkah di dalam Matikan dan perbarui SageMaker Studio.
Unduh buku catatan
Unduh notebook sampel secara lokal dari GitHub repo.
Buka notebook di IDE pilihan Anda dan tambahkan sel ke awal notebook untuk diinstal torchsummary
. itu torchsummary
paket bukan bagian dari distribusi, dan menginstal ini di notebook akan memastikan notebook berjalan dari ujung ke ujung. Kami merekomendasikan menggunakan conda
or micromamba
untuk mengelola lingkungan dan dependensi. Tambahkan sel berikut ke buku catatan dan simpan buku catatan:
Percobaan pada notebook lokal
Unggah notebook ke UI JupyterLab yang Anda luncurkan dengan memilih ikon unggahan seperti yang ditunjukkan pada tangkapan layar berikut.
Saat diunggah, luncurkan cv-kmnist.ipynb
buku catatan. Anda dapat mulai menjalankan sel dengan segera, tanpa harus memasang dependensi apa pun seperti obor, matplotlib, atau ipywidgets.
Jika Anda mengikuti langkah sebelumnya, Anda dapat melihat bahwa Anda dapat menggunakan distribusi secara lokal dari laptop Anda. Pada langkah selanjutnya, kami menggunakan distribusi yang sama di Studio untuk memanfaatkan fitur-fitur Studio.
Pindahkan eksperimen ke Studio (opsional)
Secara opsional, mari promosikan eksperimen ke Studio. Salah satu keunggulan Studio adalah bahwa sumber daya komputasi yang mendasarinya sepenuhnya elastis, sehingga Anda dapat dengan mudah menaikkan atau menurunkan sumber daya yang tersedia, dan perubahan berlangsung secara otomatis di latar belakang tanpa mengganggu pekerjaan Anda. Jika Anda ingin menjalankan notebook yang sama dari sebelumnya pada kumpulan data dan instance komputasi yang lebih besar, Anda dapat bermigrasi ke Studio.
Arahkan ke UI Studio yang Anda luncurkan sebelumnya dan pilih ikon unggah untuk mengunggah buku catatan.
Setelah Anda meluncurkan notebook, Anda akan diminta untuk memilih gambar dan jenis instans. Pada peluncur kernel, pilih sagemaker-runtime
seperti gambar dan ml.t3.medium
misalnya, lalu pilih Pilih.
Anda sekarang dapat menjalankan notebook dari ujung ke ujung tanpa memerlukan perubahan apa pun pada notebook dari lingkungan pengembangan lokal Anda ke notebook Studio!
Jadwalkan buku catatan sebagai pekerjaan
Setelah Anda selesai dengan eksperimen Anda, SageMaker menyediakan beberapa opsi untuk memproduksi buku catatan Anda, seperti tugas pelatihan dan pipeline SageMaker. Salah satu opsi tersebut adalah dengan langsung menjalankan notebook itu sendiri sebagai penggunaan notebook terjadwal non-interaktif Pekerjaan buku catatan SageMaker. Misalnya, Anda mungkin ingin melatih ulang model Anda secara berkala, atau mendapatkan kesimpulan tentang data yang masuk secara berkala dan membuat laporan untuk digunakan oleh pemangku kepentingan Anda.
Dari Studio, pilih ikon pekerjaan buku catatan untuk meluncurkan pekerjaan buku catatan. Jika Anda telah menginstal ekstensi pekerjaan notebook secara lokal di laptop Anda, Anda juga dapat menjadwalkan notebook langsung dari laptop Anda. Melihat Panduan Instalasi untuk menyiapkan ekstensi pekerjaan notebook secara lokal.
Pekerjaan notebook secara otomatis menggunakan URI gambar ECR dari distribusi sumber terbuka, sehingga Anda bisa langsung menjadwalkan pekerjaan notebook.
Pilih Jalankan sesuai jadwal, pilih jadwal, misalnya setiap minggu pada hari Sabtu, dan pilih Buat. Anda juga bisa memilih Lari sekarang jika ingin langsung melihat hasilnya.
Saat pekerjaan buku catatan pertama selesai, Anda dapat melihat keluaran buku catatan langsung dari UI Studio dengan memilih buku catatan bawah File keluaran.
Pertimbangan tambahan
Selain menggunakan image ECR yang tersedia untuk umum secara langsung untuk beban kerja ML, distribusi open-source menawarkan keuntungan berikut:
- Dockerfile yang digunakan untuk membuat gambar tersedia untuk umum bagi pengembang untuk menjelajahi dan membuat gambar mereka sendiri. Anda juga dapat mewarisi gambar ini sebagai gambar dasar dan memasang perpustakaan khusus Anda untuk memiliki lingkungan yang dapat direproduksi.
- Jika Anda tidak terbiasa dengan Docker dan lebih suka menggunakan lingkungan Conda di lingkungan JupyterLab Anda, kami menyediakan
env.out
file untuk setiap versi yang diterbitkan. Anda dapat menggunakan instruksi dalam file untuk membuat lingkungan Conda Anda sendiri yang akan meniru lingkungan yang sama. Misalnya, lihat file lingkungan CPU cpu.env.out. - Anda dapat menggunakan gambar versi GPU untuk menjalankan beban kerja yang kompatibel dengan GPU seperti pembelajaran mendalam dan pemrosesan gambar.
Membersihkan
Selesaikan langkah-langkah berikut untuk membersihkan sumber daya Anda:
- Jika Anda telah menjadwalkan buku catatan untuk berjalan sesuai jadwal, jeda atau hapus jadwal di Definisi Pekerjaan Notebook tab untuk menghindari membayar pekerjaan di masa mendatang.
- Matikan semua aplikasi Studio untuk menghindari pembayaran penggunaan komputasi yang tidak terpakai. Melihat Matikan dan Perbarui Aplikasi Studio untuk instruksi.
- Secara opsional, hapus domain Studio jika Anda membuatnya.
Kesimpulan
Mempertahankan lingkungan yang dapat direproduksi di berbagai tahapan siklus hidup ML adalah salah satu tantangan terbesar bagi ilmuwan dan pengembang data. Dengan distribusi sumber terbuka SageMaker, kami menyediakan gambar dengan versi kerangka kerja dan paket ML paling umum yang kompatibel satu sama lain. Distribusinya juga open source, memberikan pengembang transparansi ke dalam paket dan proses pembuatan, membuatnya lebih mudah untuk menyesuaikan distribusi mereka sendiri.
Dalam postingan ini, kami menunjukkan cara menggunakan distribusi di lingkungan lokal Anda, di Studio, dan sebagai wadah untuk pekerjaan pelatihan Anda. Fitur ini saat ini dalam versi beta publik. Kami mendorong Anda untuk mencoba ini dan berbagi umpan balik dan masalah Anda di repositori GitHub publik!
Tentang penulis
Durga Surya adalah Arsitek Solusi ML di tim Amazon SageMaker Service SA. Dia bersemangat membuat pembelajaran mesin dapat diakses oleh semua orang. Selama 4 tahun di AWS, dia telah membantu menyiapkan platform AI/ML untuk pelanggan perusahaan. Ketika dia tidak bekerja, dia suka mengendarai sepeda motor, novel misteri, dan berjalan-jalan dengan huskynya yang berusia 5 tahun.
Ketan Vijayvargiya adalah Insinyur Pengembangan Perangkat Lunak Senior di Amazon Web Services (AWS). Area fokusnya adalah pembelajaran mesin, sistem terdistribusi, dan sumber terbuka. Di luar pekerjaan, dia suka menghabiskan waktunya untuk menjamu diri sendiri dan menikmati alam.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Keuangan EVM. Antarmuka Terpadu untuk Keuangan Terdesentralisasi. Akses Di Sini.
- Grup Media Kuantum. IR/PR Diperkuat. Akses Di Sini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/get-started-with-the-open-source-amazon-sagemaker-distribution/
- :memiliki
- :adalah
- :bukan
- $NAIK
- 1
- 10
- 100
- 11
- 2023
- 7
- 9
- a
- Tentang Kami
- dapat diakses
- di seluruh
- menambahkan
- tambahan
- Tambahan
- Keuntungan
- keuntungan
- AI / ML
- Semua
- sudah
- juga
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Layanan Web Amazon (AWS)
- an
- dan
- mengumumkan
- Apa pun
- aplikasi
- aplikasi
- ADALAH
- daerah
- AS
- At
- melampirkan
- secara otomatis
- tersedia
- menghindari
- AWS
- latar belakang
- mendasarkan
- berdasarkan
- BE
- Awal
- beta
- antara
- Terbesar
- Browser
- membangun
- by
- CAN
- KUCING
- Sel
- tantangan
- Perubahan
- pilihan
- Pilih
- memilih
- klasifikasi
- COM
- Umum
- cocok
- lengkap
- menghitung
- konfigurasi
- konsisten
- konsul
- konsumsi
- Wadah
- Wadah
- membuat
- dibuat
- Sekarang
- adat
- pelanggan
- menyesuaikan
- data
- ilmu data
- kumpulan data
- mendalam
- belajar mendalam
- Default
- menyebarkan
- menggambarkan
- pengembang
- Pengembangan
- berbeda
- langsung
- didistribusikan
- sistem terdistribusi
- distribusi
- Buruh pelabuhan
- domain
- dilakukan
- turun
- setiap
- Terdahulu
- mudah
- mudah
- memungkinkan
- mendorong
- akhir
- ujung ke ujung
- insinyur
- memastikan
- Enter
- Enterprise
- Lingkungan Hidup
- lingkungan
- Setiap
- semua orang
- contoh
- contoh
- ada
- pengalaman
- eksperimen
- keahlian
- menyelidiki
- ekspor
- perpanjangan
- luas
- Fitur
- Fitur
- umpan balik
- File
- Akhirnya
- Pertama
- Fokus
- diikuti
- berikut
- Untuk
- Kerangka
- kerangka
- dari
- penuh
- sepenuhnya
- masa depan
- menghasilkan
- mendapatkan
- GitHub
- GPU
- Memiliki
- memiliki
- he
- membantu
- dia
- -nya
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- HTTPS
- ICON
- if
- gambar
- Klasifikasi gambar
- gambar
- segera
- memperbaiki
- in
- masuk
- install
- diinstal
- Instalasi
- contoh
- instruksi
- terpadu
- ke
- masalah
- IT
- Diri
- Pekerjaan
- Jobs
- jpg
- json
- laboratorium
- laptop
- lebih besar
- jalankan
- diluncurkan
- pengetahuan
- Lets
- adalah ide yang bagus
- perpustakaan
- siklus hidup
- 'like'
- 'like
- LINK
- Daftar
- lokal
- lokal
- masuk
- Panjang
- lagi
- lepas
- mencintai
- mesin
- Mesin belajar
- membuat
- Membuat
- mengelola
- pelaksana
- matplotlib.dll
- mungkin
- bermigrasi
- ML
- model
- model
- Memantau
- paling
- sepeda motor
- pindah
- beberapa
- saling
- Misteri
- nama
- Alam
- Perlu
- membutuhkan
- jaringan
- saraf jaringan
- New
- berikutnya
- tidak
- buku catatan
- sekarang
- of
- Penawaran
- on
- ONE
- Buka
- open source
- pilihan
- Opsi
- or
- kami
- di luar
- di luar
- sendiri
- paket
- paket
- panda
- bagian
- bergairah
- berhenti sebentar
- pembayaran
- prestasi
- Tempat
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- Pos
- lebih suka
- disukai
- prasyarat
- Mencetak
- swasta
- proses
- pengolahan
- Produksi
- Profil
- mendorong
- memberikan
- menyediakan
- menyediakan
- publik
- di depan umum
- diterbitkan
- Dorong
- Ular sanca
- pytorch
- segera
- sarankan
- menggantikan
- laporan
- gudang
- Persyaratan
- Sumber
- Hasil
- Run
- berjalan
- s
- SA
- pembuat bijak
- Pipa SageMaker
- sama
- Sabtu
- Save
- Skala
- menjadwalkan
- dijadwalkan
- Ilmu
- ilmuwan
- scikit-belajar
- aman
- melihat
- senior
- layanan
- Layanan
- porsi
- set
- pengaturan
- Share
- dia
- Menunjukkan
- menampilkan
- menunjukkan
- ditunjukkan
- Sederhana
- hanya
- So
- Perangkat lunak
- pengembangan perangkat lunak
- Solusi
- sumber
- percikan
- menghabiskan
- magang
- stakeholder
- awal
- mulai
- Mulai
- Langkah
- Tangga
- studio
- seperti itu
- Mendukung
- Beralih
- sistem
- MENANDAI
- Mengambil
- tim
- tensorflow
- terminal
- uji
- bahwa
- Grafik
- mereka
- Mereka
- kemudian
- Ini
- mereka
- ini
- waktu
- untuk
- hari ini
- obor
- Pelatihan VE
- Pelatihan
- Transparansi
- mencoba
- mengetik
- ui
- pokok
- terpadu
- terpakai
- Memperbarui
- upload
- URL
- penggunaan
- menggunakan
- bekas
- Pengguna
- kegunaan
- menggunakan
- versi
- View
- visualisasi
- ingin
- ingin
- we
- jaringan
- layanan web
- minggu
- ketika
- akan
- dengan
- tanpa
- Kerja
- kerja
- tahun
- Kamu
- Anda
- zephyrnet.dll