Proses Dataset Lebih Besar Dan Lebih Luas Dengan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Pengatur Data Amazon SageMaker mengurangi waktu untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit dalam Studio Amazon SageMaker. Data Wrangler dapat menyederhanakan persiapan data dan proses rekayasa fitur serta membantu Anda dalam pemilihan, pembersihan, eksplorasi, dan visualisasi data. Data Wrangler memiliki lebih dari 300 transformasi bawaan yang ditulis di PySpark, sehingga Anda dapat memproses kumpulan data hingga ratusan gigabyte secara efisien pada instans default, ml.m5.4xlarge.

Namun, saat Anda bekerja dengan kumpulan data hingga terabyte data menggunakan transformasi bawaan, Anda mungkin mengalami waktu pemrosesan yang lebih lama atau potensi kesalahan kehabisan memori. Berdasarkan kebutuhan data Anda, Anda sekarang dapat menggunakan tambahan Cloud komputasi elastis Amazon (Amazon EC2) instans M5 dan Contoh R5. Misalnya, Anda dapat memulai dengan instans default (ml.m5.4xlarge) lalu beralih ke ml.m5.24xlarge atau ml.r5.24xlarge. Anda memiliki opsi untuk memilih jenis instans yang berbeda dan menemukan trade-off terbaik dari biaya operasional dan waktu pemrosesan. Saat berikutnya Anda mengerjakan transformasi deret waktu dan menjalankan transformator berat untuk menyeimbangkan data Anda, Anda dapat mengatur ukuran instans Data Wrangler Anda untuk menjalankan proses ini lebih cepat.

Saat memproses puluhan gigabyte atau bahkan lebih dengan transformasi Panda kustom, Anda mungkin mengalami kesalahan kehabisan memori. Anda dapat beralih dari instans default (ml.m5.4xlarge) ke ml.m5.24xlarge, dan transformasi akan selesai tanpa kesalahan. Kami benar-benar membandingkan dan mengamati percepatan linier saat kami meningkatkan ukuran instans di seluruh portofolio kumpulan data.

Dalam posting ini, kami membagikan temuan kami dari dua tes benchmark untuk menunjukkan bagaimana Anda dapat memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler.

Tes benchmark Data Wrangler

Mari kita tinjau dua pengujian yang kita jalankan, kueri agregasi dan enkode one-hot, dengan jenis instans berbeda menggunakan transformator bawaan PySpark dan transformasi Panda kustom. Transformasi yang tidak memerlukan agregasi selesai dengan cepat dan bekerja dengan baik dengan jenis instans default, jadi kami berfokus pada kueri agregasi dan transformasi dengan agregasi. Kami menyimpan kumpulan data pengujian kami di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Ukuran set data yang diperluas ini sekitar 100 GB dengan 80 juta baris dan 300 kolom. Kami menggunakan metrik UI untuk mengukur waktu pengujian benchmark dan mengukur latensi yang dihadapi pelanggan secara menyeluruh. Saat mengimpor kumpulan data pengujian kami, kami menonaktifkan pengambilan sampel. Pengambilan sampel diaktifkan secara default, dan Data Wrangler hanya memproses 100 baris pertama saat diaktifkan.x

Saat kami meningkatkan ukuran instans Data Wrangler, kami mengamati percepatan linear transformasi bawaan Data Wrangler dan Spark SQL kustom. Pengujian kueri agregasi Panda hanya selesai saat kami menggunakan instans yang lebih besar dari ml.m5.16xl, dan Pandas membutuhkan memori 180 GB untuk memproses kueri agregasi untuk kumpulan data ini.

Tabel berikut merangkum hasil pengujian kueri agregasi.

Contoh	vCPU	Memori (GiB)	Waktu transformasi Spark bawaan Wrangler Data	Waktu Panda (Transformasi Kustom)
ml.m5.4xl	16	64	229 detik	Kehabisan memori
ml.m5.8xl	32	128	130 detik	Kehabisan memori
ml.m5.16xl	64	256	52 detik	30 menit

Tabel berikut merangkum hasil pengujian enkode one-hot.

Contoh	vCPU	Memori (GiB)	Waktu transformasi Spark bawaan Wrangler Data	Waktu Panda (Transformasi Kustom)
ml.m5.4xl	16	64	228 detik	Kehabisan memori
ml.m5.8xl	32	128	130 detik	Kehabisan memori
ml.m5.16xl	64	256	52 detik	Kehabisan memori

Ganti jenis instans aliran data

Untuk mengganti jenis instans alur Anda, selesaikan langkah-langkah berikut:

Di konsol Amazon SageMaker Data Wrangler, navigasikan ke aliran data yang sedang Anda gunakan.
Pilih jenis instans pada bilah navigasi.
Pilih jenis instans yang ingin Anda gunakan.
Pilih Save.

Pesan kemajuan muncul.

Ketika peralihan selesai, pesan sukses muncul.

Data Wrangler menggunakan jenis instans yang dipilih untuk analisis data dan transformasi data. Instans default dan instans yang Anda alihkan (ml.m5.16xlarge) keduanya berjalan. Anda dapat mengubah jenis instans atau beralih kembali ke instans default sebelum menjalankan transformasi tertentu.

Matikan instance yang tidak digunakan

Anda dikenakan biaya untuk semua instans yang berjalan. Untuk menghindari timbulnya biaya tambahan, matikan instans yang tidak Anda gunakan secara manual. Untuk mematikan instans yang sedang berjalan, selesaikan langkah-langkah berikut:

Di halaman aliran data Anda, pilih ikon instans di panel kiri UI di bawah Menjalankan instance.
Pilih menutup.

Jika Anda mematikan instance yang digunakan untuk menjalankan alur, Anda tidak dapat mengakses alur untuk sementara. Jika Anda mendapatkan kesalahan saat membuka alur yang menjalankan instans yang sebelumnya Anda matikan, tunggu sekitar 5 menit dan coba buka lagi.

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan cara memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler dengan mengalihkan instans ke tipe instans M5 atau R5 yang lebih besar. instans M5 menawarkan keseimbangan sumber daya komputasi, memori, dan jaringan. Contoh R5 adalah instans yang dioptimalkan memori. Baik M5 dan R5 menyediakan jenis instans untuk mengoptimalkan biaya dan kinerja beban kerja Anda.

Untuk mempelajari lebih lanjut tentang menggunakan aliran data dengan Data Wrangler, lihat Buat dan Gunakan Aliran Data Wrangler dan Harga Amazon SageMaker. Untuk memulai dengan Data Wrangler, lihat Siapkan Data ML dengan Amazon SageMaker Data Wrangler.

Tentang Penulis

Haider Naqvi adalah Arsitek Solusi di AWS. Dia memiliki pengalaman pengembangan perangkat lunak dan arsitektur perusahaan yang luas. Dia berfokus untuk memungkinkan pelanggan mencapai hasil bisnis dengan AWS. Dia berbasis di New York.

Huong Nguyen adalah Manajer Produk Senior di AWS. Dia memimpin integrasi ekosistem data untuk SageMaker, dengan 14 tahun pengalaman membangun produk yang berpusat pada pelanggan dan berbasis data untuk ruang perusahaan dan konsumen.

Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis berteknologi tinggi dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.

Sriharsa M Sr adalah Arsitek Solusi Spesialis AI/ML dalam tim Spesialis Strategis di Amazon Web Services. Dia bekerja dengan pelanggan AWS strategis yang memanfaatkan AI/ML untuk memecahkan masalah bisnis yang kompleks. Dia memberikan bimbingan teknis dan saran desain untuk mengimplementasikan aplikasi AI/ML dalam skala besar. Keahliannya mencakup arsitektur aplikasi, data besar, analitik, dan pembelajaran mesin.

Nikita Ivkin adalah Ilmuwan Terapan, Amazon SageMaker Data Wrangler.

Stempel Waktu: 6 Mei 2022

Stempel Waktu: Desember 16, 2022

Memperkenalkan Kartu Layanan AI AWS: Sumber daya baru untuk meningkatkan transparansi dan memajukan AI yang bertanggung jawab

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1766345

Stempel Waktu: November 30, 2022

Diterbitkan Ulang Oleh Plato

Amazon SageMaker Autopilot hingga delapan kali lebih cepat dengan mode pelatihan ensemble baru yang didukung oleh AutoGluon

Pelatihan terdistribusi dan penskalaan yang efisien dengan Amazon SageMaker Model Parallel dan Data Parallel Libraries | Layanan Web Amazon

Identifikasi akar penyebab potensial dalam anomali kritis bisnis menggunakan Amazon Lookout for Metrics

Tingkatkan transaksi penipuan menggunakan data sintetis di Amazon SageMaker

Memperkenalkan Kartu Layanan AI AWS: Sumber daya baru untuk meningkatkan transparansi dan memajukan AI yang bertanggung jawab

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun