Pengatur Data Amazon SageMaker mengurangi waktu untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit dalam Studio Amazon SageMaker. Data Wrangler dapat menyederhanakan persiapan data dan proses rekayasa fitur serta membantu Anda dalam pemilihan, pembersihan, eksplorasi, dan visualisasi data. Data Wrangler memiliki lebih dari 300 transformasi bawaan yang ditulis di PySpark, sehingga Anda dapat memproses kumpulan data hingga ratusan gigabyte secara efisien pada instans default, ml.m5.4xlarge.
Namun, saat Anda bekerja dengan kumpulan data hingga terabyte data menggunakan transformasi bawaan, Anda mungkin mengalami waktu pemrosesan yang lebih lama atau potensi kesalahan kehabisan memori. Berdasarkan kebutuhan data Anda, Anda sekarang dapat menggunakan tambahan Cloud komputasi elastis Amazon (Amazon EC2) instans M5 dan Contoh R5. Misalnya, Anda dapat memulai dengan instans default (ml.m5.4xlarge) lalu beralih ke ml.m5.24xlarge atau ml.r5.24xlarge. Anda memiliki opsi untuk memilih jenis instans yang berbeda dan menemukan trade-off terbaik dari biaya operasional dan waktu pemrosesan. Saat berikutnya Anda mengerjakan transformasi deret waktu dan menjalankan transformator berat untuk menyeimbangkan data Anda, Anda dapat mengatur ukuran instans Data Wrangler Anda untuk menjalankan proses ini lebih cepat.
Saat memproses puluhan gigabyte atau bahkan lebih dengan transformasi Panda kustom, Anda mungkin mengalami kesalahan kehabisan memori. Anda dapat beralih dari instans default (ml.m5.4xlarge) ke ml.m5.24xlarge, dan transformasi akan selesai tanpa kesalahan. Kami benar-benar membandingkan dan mengamati percepatan linier saat kami meningkatkan ukuran instans di seluruh portofolio kumpulan data.
Dalam posting ini, kami membagikan temuan kami dari dua tes benchmark untuk menunjukkan bagaimana Anda dapat memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler.
Tes benchmark Data Wrangler
Mari kita tinjau dua pengujian yang kita jalankan, kueri agregasi dan enkode one-hot, dengan jenis instans berbeda menggunakan transformator bawaan PySpark dan transformasi Panda kustom. Transformasi yang tidak memerlukan agregasi selesai dengan cepat dan bekerja dengan baik dengan jenis instans default, jadi kami berfokus pada kueri agregasi dan transformasi dengan agregasi. Kami menyimpan kumpulan data pengujian kami di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Ukuran set data yang diperluas ini sekitar 100 GB dengan 80 juta baris dan 300 kolom. Kami menggunakan metrik UI untuk mengukur waktu pengujian benchmark dan mengukur latensi yang dihadapi pelanggan secara menyeluruh. Saat mengimpor kumpulan data pengujian kami, kami menonaktifkan pengambilan sampel. Pengambilan sampel diaktifkan secara default, dan Data Wrangler hanya memproses 100 baris pertama saat diaktifkan.x
Saat kami meningkatkan ukuran instans Data Wrangler, kami mengamati percepatan linear transformasi bawaan Data Wrangler dan Spark SQL kustom. Pengujian kueri agregasi Panda hanya selesai saat kami menggunakan instans yang lebih besar dari ml.m5.16xl, dan Pandas membutuhkan memori 180 GB untuk memproses kueri agregasi untuk kumpulan data ini.
Tabel berikut merangkum hasil pengujian kueri agregasi.
Contoh | vCPU | Memori (GiB) | Waktu transformasi Spark bawaan Wrangler Data | Waktu Panda (Transformasi Kustom) |
ml.m5.4xl | 16 | 64 | 229 detik | Kehabisan memori |
ml.m5.8xl | 32 | 128 | 130 detik | Kehabisan memori |
ml.m5.16xl | 64 | 256 | 52 detik | 30 menit |
Tabel berikut merangkum hasil pengujian enkode one-hot.
Contoh | vCPU | Memori (GiB) | Waktu transformasi Spark bawaan Wrangler Data | Waktu Panda (Transformasi Kustom) |
ml.m5.4xl | 16 | 64 | 228 detik | Kehabisan memori |
ml.m5.8xl | 32 | 128 | 130 detik | Kehabisan memori |
ml.m5.16xl | 64 | 256 | 52 detik | Kehabisan memori |
Ganti jenis instans aliran data
Untuk mengganti jenis instans alur Anda, selesaikan langkah-langkah berikut:
- Di konsol Amazon SageMaker Data Wrangler, navigasikan ke aliran data yang sedang Anda gunakan.
- Pilih jenis instans pada bilah navigasi.
- Pilih jenis instans yang ingin Anda gunakan.
- Pilih Save.
Pesan kemajuan muncul.
Ketika peralihan selesai, pesan sukses muncul.
Data Wrangler menggunakan jenis instans yang dipilih untuk analisis data dan transformasi data. Instans default dan instans yang Anda alihkan (ml.m5.16xlarge) keduanya berjalan. Anda dapat mengubah jenis instans atau beralih kembali ke instans default sebelum menjalankan transformasi tertentu.
Matikan instance yang tidak digunakan
Anda dikenakan biaya untuk semua instans yang berjalan. Untuk menghindari timbulnya biaya tambahan, matikan instans yang tidak Anda gunakan secara manual. Untuk mematikan instans yang sedang berjalan, selesaikan langkah-langkah berikut:
- Di halaman aliran data Anda, pilih ikon instans di panel kiri UI di bawah Menjalankan instance.
- Pilih menutup.
Jika Anda mematikan instance yang digunakan untuk menjalankan alur, Anda tidak dapat mengakses alur untuk sementara. Jika Anda mendapatkan kesalahan saat membuka alur yang menjalankan instans yang sebelumnya Anda matikan, tunggu sekitar 5 menit dan coba buka lagi.
Kesimpulan
Dalam postingan ini, kami mendemonstrasikan cara memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler dengan mengalihkan instans ke tipe instans M5 atau R5 yang lebih besar. instans M5 menawarkan keseimbangan sumber daya komputasi, memori, dan jaringan. Contoh R5 adalah instans yang dioptimalkan memori. Baik M5 dan R5 menyediakan jenis instans untuk mengoptimalkan biaya dan kinerja beban kerja Anda.
Untuk mempelajari lebih lanjut tentang menggunakan aliran data dengan Data Wrangler, lihat Buat dan Gunakan Aliran Data Wrangler dan Harga Amazon SageMaker. Untuk memulai dengan Data Wrangler, lihat Siapkan Data ML dengan Amazon SageMaker Data Wrangler.
Tentang Penulis
Haider Naqvi adalah Arsitek Solusi di AWS. Dia memiliki pengalaman pengembangan perangkat lunak dan arsitektur perusahaan yang luas. Dia berfokus untuk memungkinkan pelanggan mencapai hasil bisnis dengan AWS. Dia berbasis di New York.
Huong Nguyen adalah Manajer Produk Senior di AWS. Dia memimpin integrasi ekosistem data untuk SageMaker, dengan 14 tahun pengalaman membangun produk yang berpusat pada pelanggan dan berbasis data untuk ruang perusahaan dan konsumen.
Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis berteknologi tinggi dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.
Sriharsa M Sr adalah Arsitek Solusi Spesialis AI/ML dalam tim Spesialis Strategis di Amazon Web Services. Dia bekerja dengan pelanggan AWS strategis yang memanfaatkan AI/ML untuk memecahkan masalah bisnis yang kompleks. Dia memberikan bimbingan teknis dan saran desain untuk mengimplementasikan aplikasi AI/ML dalam skala besar. Keahliannya mencakup arsitektur aplikasi, data besar, analitik, dan pembelajaran mesin.
Nikita Ivkin adalah Ilmuwan Terapan, Amazon SageMaker Data Wrangler.
- Coinsmart. Pertukaran Bitcoin dan Crypto Terbaik Eropa.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. AKSES GRATIS.
- CryptoHawk. Radar Altcoin. Uji Coba Gratis.
- Sumber: https://aws.amazon.com/blogs/machine-learning/process-larger-and-wider-datasets-with-amazon-sagemaker-data-wrangler/
- "
- 100
- Tentang Kami
- mengakses
- di seluruh
- Tambahan
- Keuntungan
- nasihat
- AI
- Semua
- Amazon
- Amazon Web Services
- analisis
- analisis
- Aplikasi
- aplikasi
- sekitar
- arsitektur
- sekitar
- AWS
- patokan
- TERBAIK
- Big data
- Bangunan
- built-in
- bisnis
- perubahan
- dibebankan
- beban
- Pilih
- Pembersihan
- kompleks
- menghitung
- konsul
- konsumen
- Sekarang
- adat
- pelanggan
- data
- analisis data
- mendemonstrasikan
- menunjukkan
- Mendesain
- Pengembangan
- berbeda
- turun
- ekosistem
- efisien
- memungkinkan
- Teknik
- Enterprise
- contoh
- pengalaman
- keahlian
- eksplorasi
- luas
- lebih cepat
- Fitur
- temuan
- Pertama
- aliran
- terfokus
- berfokus
- berikut
- tinggi
- membantu
- membantu
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- Ratusan
- ICON
- melaksanakan
- pengimporan
- Pada meningkat
- integrasi
- IT
- lebih besar
- terkemuka
- BELAJAR
- pengetahuan
- mesin
- Mesin belajar
- manajer
- manual
- mengukur
- Memori
- Metrik
- juta
- ML
- lebih
- Navigasi
- jaringan
- NY
- menawarkan
- pembukaan
- Optimize
- pilihan
- bergairah
- prestasi
- portofolio
- potensi
- Mempersiapkan
- masalah
- proses
- proses
- pengolahan
- Produk
- Produk
- memberikan
- menyediakan
- segera
- membutuhkan
- Persyaratan
- Sumber
- Hasil
- ulasan
- Run
- berjalan
- Skala
- ilmuwan
- terpilih
- Seri
- Layanan
- Share
- Sederhana
- Ukuran
- So
- Perangkat lunak
- pengembangan perangkat lunak
- Solusi
- MEMECAHKAN
- spasi
- spesialis
- awal
- mulai
- penyimpanan
- Strategis
- sukses
- Beralih
- pengambilan
- tim
- Teknis
- uji
- tes
- sepenuhnya
- waktu
- Mengubah
- Transformasi
- ui
- menggunakan
- visualisasi
- menunggu
- jaringan
- layanan web
- SIAPA
- tanpa
- Kerja
- kerja
- bekerja
- tahun