Amazon SageMaker menawarkan beberapa cara untuk menjalankan tugas pemrosesan data terdistribusi dengan Apache Spark, kerangka kerja komputasi terdistribusi populer untuk pemrosesan data besar.
Anda dapat menjalankan aplikasi Spark secara interaktif dari Studio Amazon SageMaker dengan menghubungkan notebook SageMaker Studio dan Sesi Interaktif AWS Glue untuk menjalankan pekerjaan Spark dengan cluster tanpa server. Dengan sesi interaktif, Anda dapat memilih Apache Spark atau Ray untuk memproses kumpulan data besar dengan mudah, tanpa mengkhawatirkan manajemen klaster.
Sebagai alternatif, jika Anda memerlukan kontrol lebih terhadap lingkungan, Anda dapat menggunakan wadah SageMaker Spark bawaan untuk menjalankan aplikasi Spark sebagai tugas batch pada klaster terdistribusi yang dikelola sepenuhnya dengan Pemrosesan SageMaker Amazon. Opsi ini memungkinkan Anda memilih beberapa jenis instans (komputasi yang dioptimalkan, memori yang dioptimalkan, dan lainnya), jumlah node dalam klaster, dan konfigurasi klaster, sehingga memungkinkan fleksibilitas yang lebih besar untuk pemrosesan data dan pelatihan model.
Terakhir, Anda dapat menjalankan aplikasi Spark dengan menghubungkan notebook Studio dengan Amazon ESDM cluster, atau dengan menjalankan cluster Spark Anda Cloud komputasi elastis Amazon (Amazon EC2).
Semua opsi ini memungkinkan Anda membuat dan menyimpan log peristiwa Spark untuk menganalisisnya melalui antarmuka pengguna berbasis web yang biasa disebut Percikan UI, yang menjalankan Spark History Server untuk memantau progres aplikasi Spark, melacak penggunaan sumber daya, dan kesalahan debug.
Pada postingan kali ini kami membagikan a larutan untuk menginstal dan menjalankan Server Riwayat Spark di SageMaker Studio dan mengakses UI Spark langsung dari IDE SageMaker Studio, untuk menganalisis log Spark yang dihasilkan oleh berbagai layanan AWS (Sesi Interaktif AWS Glue, tugas Pemrosesan SageMaker, dan Amazon EMR) dan disimpan dalam Layanan Penyimpanan Sederhana Amazon (Amazon S3).
Ikhtisar solusi
Solusinya mengintegrasikan Spark History Server ke dalam aplikasi Jupyter Server di SageMaker Studio. Ini memungkinkan pengguna untuk mengakses log Spark langsung dari SageMaker Studio IDE. Server Sejarah Spark terintegrasi mendukung yang berikut ini:
- Mengakses log yang dibuat oleh tugas SageMaker Processing Spark
- Mengakses log yang dibuat oleh aplikasi AWS Glue Spark
- Mengakses log yang dihasilkan oleh klaster Spark yang dikelola sendiri dan Amazon EMR
Antarmuka baris perintah utilitas (CLI) dipanggil sm-spark-cli
juga disediakan untuk berinteraksi dengan Spark UI dari terminal sistem SageMaker Studio. Itu sm-spark-cli
memungkinkan pengelolaan Spark History Server tanpa meninggalkan SageMaker Studio.
Solusinya terdiri dari skrip shell yang melakukan tindakan berikut:
- Instal Spark di Server Jupyter untuk profil pengguna SageMaker Studio atau untuk ruang bersama SageMaker Studio
- Instal
sm-spark-cli
untuk profil pengguna atau ruang bersama
Instal Spark UI secara manual di domain SageMaker Studio
Untuk menghosting Spark UI di SageMaker Studio, selesaikan langkah-langkah berikut:
- Pilih Terminal sistem dari peluncur SageMaker Studio.
- Jalankan perintah berikut di terminal sistem:
Perintah akan memakan waktu beberapa detik untuk diselesaikan.
- Saat penginstalan selesai, Anda dapat memulai Spark UI dengan menggunakan yang disediakan
sm-spark-cli
dan akses dari browser web dengan menjalankan kode berikut:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
Lokasi S3 tempat log peristiwa yang dihasilkan oleh SageMaker Processing, AWS Glue, atau Amazon EMR disimpan dapat dikonfigurasi saat menjalankan aplikasi Spark.
Untuk notebook SageMaker Studio dan Sesi Interaktif AWS Glue, Anda dapat menyiapkan lokasi log peristiwa Spark langsung dari notebook dengan menggunakan sparkmagic
inti.
Grafik sparkmagic
kernel berisi seperangkat alat untuk berinteraksi dengan cluster Spark jarak jauh melalui notebook. Menawarkan sihir (%spark
, %sql
) perintah untuk menjalankan kode Spark, menjalankan kueri SQL, dan mengonfigurasi pengaturan Spark seperti memori dan inti pelaksana.
Untuk tugas Pemrosesan SageMaker, Anda dapat mengonfigurasi lokasi log peristiwa Spark langsung dari SageMaker Python SDK.
Lihat dokumentasi AWS untuk informasi tambahan:
Anda dapat memilih URL yang dihasilkan untuk mengakses Spark UI.
Tangkapan layar berikut menunjukkan contoh UI Spark.
Anda dapat memeriksa status Spark History Server dengan menggunakan sm-spark-cli status
perintah di terminal Sistem Studio.
Anda juga dapat menghentikan Server Riwayat Spark bila diperlukan.
Mengotomatiskan penginstalan Spark UI untuk pengguna di domain SageMaker Studio
Sebagai admin TI, Anda dapat mengotomatiskan penginstalan untuk pengguna SageMaker Studio menggunakan a konfigurasi siklus hidup. Ini dapat dilakukan untuk semua profil pengguna di bawah domain SageMaker Studio atau untuk yang spesifik. Melihat Kustomisasi Amazon SageMaker Studio menggunakan Konfigurasi Siklus Hidup lebih lanjut.
Anda dapat membuat konfigurasi siklus hidup dari instal-sejarah-server.sh skrip dan lampirkan ke domain SageMaker Studio yang sudah ada. Penginstalan dijalankan untuk semua profil pengguna di domain.
Dari terminal yang dikonfigurasi dengan Antarmuka Baris Perintah AWS (AWS CLI) dan izin yang sesuai, jalankan perintah berikut:
Setelah Jupyter Server dimulai ulang, Spark UI dan sm-spark-cli
akan tersedia di lingkungan SageMaker Studio Anda.
Membersihkan
Di bagian ini, kami menunjukkan cara membersihkan Spark UI di domain SageMaker Studio, baik secara manual maupun otomatis.
Copot pemasangan Spark UI secara manual
Untuk menghapus instalan Spark UI secara manual di SageMaker Studio, selesaikan langkah-langkah berikut:
- Pilih Terminal sistem di peluncur SageMaker Studio.
- Jalankan perintah berikut di terminal sistem:
Copot pemasangan Spark UI secara otomatis untuk semua profil pengguna SageMaker Studio
Untuk menghapus instalan Spark UI secara otomatis di SageMaker Studio untuk semua profil pengguna, selesaikan langkah-langkah berikut:
- Di konsol SageMaker, pilih Domain di panel navigasi, lalu pilih domain SageMaker Studio.
- Di halaman detail domain, navigasikan ke Lingkungan Hidup Tab.
- Pilih konfigurasi siklus hidup untuk Spark UI di SageMaker Studio.
- Pilih Melepaskan.
- Hapus dan mulai ulang aplikasi Jupyter Server untuk profil pengguna SageMaker Studio.
Kesimpulan
Dalam postingan ini, kami membagikan solusi yang dapat Anda gunakan untuk menginstal Spark UI dengan cepat di SageMaker Studio. Dengan UI Spark yang dihosting di SageMaker, pembelajaran mesin (ML) dan tim teknik data dapat menggunakan komputasi cloud yang dapat diskalakan untuk mengakses dan menganalisis log Spark dari mana saja dan mempercepat pengiriman proyek mereka. Admin TI dapat menstandarkan dan mempercepat penyediaan solusi di cloud dan menghindari proliferasi lingkungan pengembangan khusus untuk proyek ML.
Semua kode yang ditampilkan sebagai bagian dari posting ini tersedia di Repositori GitHub.
Tentang Penulis
Giuseppe Angelo Porcelli adalah Arsitek Solusi Spesialis Machine Learning Utama untuk Amazon Web Services. Dengan beberapa tahun rekayasa perangkat lunak dan latar belakang ML, dia bekerja dengan pelanggan dari berbagai ukuran untuk memahami kebutuhan bisnis dan teknis mereka serta merancang solusi AI dan ML yang memanfaatkan sebaik-baiknya AWS Cloud dan tumpukan Amazon Machine Learning. Dia telah mengerjakan proyek di berbagai domain, termasuk MLOps, computer vision, dan NLP, yang melibatkan serangkaian layanan AWS. Di waktu luangnya, Giuseppe menikmati bermain sepak bola.
Bruno Piston adalah Arsitek Solusi Spesialis AI/ML untuk AWS yang berbasis di Milan. Dia bekerja dengan pelanggan dari berbagai ukuran, membantu mereka memahami kebutuhan teknis mereka dan merancang solusi AI dan ML yang memanfaatkan AWS Cloud dan tumpukan Amazon Machine Learning dengan sebaik-baiknya. Bidang keahliannya meliputi machine learning end to end, machine learning endustrialization, dan generative AI. Dia menikmati menghabiskan waktu bersama teman-temannya dan menjelajahi tempat-tempat baru, serta bepergian ke tujuan baru.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :memiliki
- :adalah
- :Di mana
- $NAIK
- 1
- 100
- 12
- 7
- 8
- 9
- a
- Tentang Kami
- mengakses
- mengakses
- tindakan
- Tambahan
- Informasi Tambahan
- admin
- AI
- AI / ML
- Semua
- mengizinkan
- memungkinkan
- juga
- Amazon
- Amazon EC2
- Amazon ESDM
- Pembelajaran Mesin Amazon
- Amazon SageMaker
- Studio Amazon SageMaker
- Amazon Web Services
- an
- menganalisa
- menganalisis
- dan
- Apa pun
- di manapun
- Apache
- aplikasi
- aplikasi
- sesuai
- aplikasi
- ADALAH
- AS
- melampirkan
- mengotomatisasikan
- secara otomatis
- tersedia
- menghindari
- AWS
- Lem AWS
- latar belakang
- berdasarkan
- BE
- TERBAIK
- Besar
- Big data
- luas
- Browser
- bisnis
- by
- bernama
- CAN
- CD
- memeriksa
- Pilih
- awan
- Kelompok
- kode
- umum
- lengkap
- menghitung
- komputer
- Visi Komputer
- komputasi
- konfigurasi
- dikonfigurasi
- Menghubungkan
- terdiri
- konsul
- Wadah
- mengandung
- kontrol
- membuat
- adat
- pelanggan
- data
- pengolahan data
- kumpulan data
- pengiriman
- Mendesain
- tujuan
- rincian
- Pengembangan
- berbeda
- langsung
- didistribusikan
- komputasi terdistribusi
- dokumentasi
- domain
- domain
- dilakukan
- mudah
- antara
- memungkinkan
- memungkinkan
- akhir
- Teknik
- Lingkungan Hidup
- lingkungan
- kesalahan
- Acara
- contoh
- ada
- mempercepat
- Menjelajahi
- beberapa
- bidang
- keluwesan
- berikut
- sepak bola
- Untuk
- Kerangka
- Gratis
- teman
- dari
- sepenuhnya
- menghasilkan
- dihasilkan
- generatif
- AI generatif
- lebih besar
- he
- membantu
- -nya
- sejarah
- tuan rumah
- host
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- http
- HTTPS
- if
- in
- termasuk
- Termasuk
- informasi
- install
- instalasi
- Instalasi
- terpadu
- Terintegrasi
- berinteraksi
- interaktif
- Antarmuka
- ke
- melibatkan
- IT
- Pekerjaan
- Jobs
- jpg
- besar
- pengetahuan
- meninggalkan
- siklus hidup
- 'like'
- baris
- tempat
- mencatat
- mesin
- Mesin belajar
- sihir
- membuat
- berhasil
- pengelolaan
- pelaksana
- manual
- Memori
- MILAN
- ML
- MLOps
- model
- Memantau
- lebih
- Bernama
- Arahkan
- Navigasi
- Perlu
- dibutuhkan
- kebutuhan
- New
- nLP
- node
- buku catatan
- jumlah
- of
- Penawaran
- on
- yang
- dioptimalkan
- pilihan
- Opsi
- or
- lebih
- halaman
- pane
- bagian
- Melakukan
- Izin
- Tempat
- plato
- Kecerdasan Data Plato
- Data Plato
- bermain
- Populer
- Pos
- Utama
- proses
- pengolahan
- Diproduksi
- Profil
- profil
- Kemajuan
- proyek
- memprojeksikan
- disediakan
- Ular sanca
- query
- segera
- RAY
- terpencil
- sumber
- Run
- berjalan
- berjalan
- pembuat bijak
- terukur
- script
- SDK
- detik
- Bagian
- melihat
- Tanpa Server
- Layanan
- sesi
- set
- pengaturan
- beberapa
- Share
- berbagi
- Kulit
- Menunjukkan
- ditunjukkan
- Pertunjukkan
- Sederhana
- Ukuran
- Perangkat lunak
- rekayasa Perangkat Lunak
- larutan
- Solusi
- percikan
- spesialis
- tertentu
- kecepatan
- Pengeluaran
- tumpukan
- awal
- Status
- Tangga
- berhenti
- penyimpanan
- menyimpan
- tersimpan
- studio
- Mendukung
- sistem
- Mengambil
- tim
- Teknis
- terminal
- bahwa
- Grafik
- mereka
- Mereka
- kemudian
- dengan demikian
- Ini
- ini
- Melalui
- waktu
- untuk
- alat
- jalur
- Pelatihan
- Perjalanan
- jenis
- ui
- bawah
- memahami
- URL
- penggunaan
- menggunakan
- Pengguna
- User Interface
- Pengguna
- menggunakan
- kegunaan
- penglihatan
- cara
- we
- jaringan
- web browser
- layanan web
- berbasis web
- BAIK
- ketika
- yang
- akan
- dengan
- tanpa
- bekerja
- bekerja
- tahun
- Kamu
- Anda
- zephyrnet.dll