Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler

Pengatur Data Amazon SageMaker mengurangi waktu untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit dalam Studio Amazon SageMaker. Data Wrangler dapat menyederhanakan persiapan data dan proses rekayasa fitur serta membantu Anda dalam pemilihan, pembersihan, eksplorasi, dan visualisasi data. Data Wrangler memiliki lebih dari 300 transformasi bawaan yang ditulis di PySpark, sehingga Anda dapat memproses kumpulan data hingga ratusan gigabyte secara efisien pada instans default, ml.m5.4xlarge.

Namun, saat Anda bekerja dengan kumpulan data hingga terabyte data menggunakan transformasi bawaan, Anda mungkin mengalami waktu pemrosesan yang lebih lama atau potensi kesalahan kehabisan memori. Berdasarkan kebutuhan data Anda, Anda sekarang dapat menggunakan tambahan Cloud komputasi elastis Amazon (Amazon EC2) instans M5 dan Contoh R5. Misalnya, Anda dapat memulai dengan instans default (ml.m5.4xlarge) lalu beralih ke ml.m5.24xlarge atau ml.r5.24xlarge. Anda memiliki opsi untuk memilih jenis instans yang berbeda dan menemukan trade-off terbaik dari biaya operasional dan waktu pemrosesan. Saat berikutnya Anda mengerjakan transformasi deret waktu dan menjalankan transformator berat untuk menyeimbangkan data Anda, Anda dapat mengatur ukuran instans Data Wrangler Anda untuk menjalankan proses ini lebih cepat.

Saat memproses puluhan gigabyte atau bahkan lebih dengan transformasi Panda kustom, Anda mungkin mengalami kesalahan kehabisan memori. Anda dapat beralih dari instans default (ml.m5.4xlarge) ke ml.m5.24xlarge, dan transformasi akan selesai tanpa kesalahan. Kami benar-benar membandingkan dan mengamati percepatan linier saat kami meningkatkan ukuran instans di seluruh portofolio kumpulan data.

Dalam posting ini, kami membagikan temuan kami dari dua tes benchmark untuk menunjukkan bagaimana Anda dapat memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler.

Tes benchmark Data Wrangler

Mari kita tinjau dua pengujian yang kita jalankan, kueri agregasi dan enkode one-hot, dengan jenis instans berbeda menggunakan transformator bawaan PySpark dan transformasi Panda kustom. Transformasi yang tidak memerlukan agregasi selesai dengan cepat dan bekerja dengan baik dengan jenis instans default, jadi kami berfokus pada kueri agregasi dan transformasi dengan agregasi. Kami menyimpan kumpulan data pengujian kami di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Ukuran set data yang diperluas ini sekitar 100 GB dengan 80 juta baris dan 300 kolom. Kami menggunakan metrik UI untuk mengukur waktu pengujian benchmark dan mengukur latensi yang dihadapi pelanggan secara menyeluruh. Saat mengimpor kumpulan data pengujian kami, kami menonaktifkan pengambilan sampel. Pengambilan sampel diaktifkan secara default, dan Data Wrangler hanya memproses 100 baris pertama saat diaktifkan.x

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Saat kami meningkatkan ukuran instans Data Wrangler, kami mengamati percepatan linear transformasi bawaan Data Wrangler dan Spark SQL kustom. Pengujian kueri agregasi Panda hanya selesai saat kami menggunakan instans yang lebih besar dari ml.m5.16xl, dan Pandas membutuhkan memori 180 GB untuk memproses kueri agregasi untuk kumpulan data ini.

Tabel berikut merangkum hasil pengujian kueri agregasi.

Contoh vCPU Memori (GiB) Waktu transformasi Spark bawaan Wrangler Data Waktu Panda
(Transformasi Kustom)
ml.m5.4xl 16 64 229 detik Kehabisan memori
ml.m5.8xl 32 128 130 detik Kehabisan memori
ml.m5.16xl 64 256 52 detik 30 menit

Tabel berikut merangkum hasil pengujian enkode one-hot.

Contoh vCPU Memori (GiB) Waktu transformasi Spark bawaan Wrangler Data Waktu Panda
(Transformasi Kustom)
ml.m5.4xl 16 64 228 detik Kehabisan memori
ml.m5.8xl 32 128 130 detik Kehabisan memori
ml.m5.16xl 64 256 52 detik Kehabisan memori

Ganti jenis instans aliran data

Untuk mengganti jenis instans alur Anda, selesaikan langkah-langkah berikut:

  1. Di konsol Amazon SageMaker Data Wrangler, navigasikan ke aliran data yang sedang Anda gunakan.
  2. Pilih jenis instans pada bilah navigasi.
    Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
  3. Pilih jenis instans yang ingin Anda gunakan.
  4. Pilih Save.
    Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pesan kemajuan muncul.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Ketika peralihan selesai, pesan sukses muncul.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Data Wrangler menggunakan jenis instans yang dipilih untuk analisis data dan transformasi data. Instans default dan instans yang Anda alihkan (ml.m5.16xlarge) keduanya berjalan. Anda dapat mengubah jenis instans atau beralih kembali ke instans default sebelum menjalankan transformasi tertentu.

Matikan instance yang tidak digunakan

Anda dikenakan biaya untuk semua instans yang berjalan. Untuk menghindari timbulnya biaya tambahan, matikan instans yang tidak Anda gunakan secara manual. Untuk mematikan instans yang sedang berjalan, selesaikan langkah-langkah berikut:

  1. Di halaman aliran data Anda, pilih ikon instans di panel kiri UI di bawah Menjalankan instance.
    Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
  2. Pilih menutup.

Jika Anda mematikan instance yang digunakan untuk menjalankan alur, Anda tidak dapat mengakses alur untuk sementara. Jika Anda mendapatkan kesalahan saat membuka alur yang menjalankan instans yang sebelumnya Anda matikan, tunggu sekitar 5 menit dan coba buka lagi.

Kesimpulan

Dalam postingan ini, kami mendemonstrasikan cara memproses kumpulan data yang lebih besar dan lebih luas dengan Data Wrangler dengan mengalihkan instans ke tipe instans M5 atau R5 yang lebih besar. instans M5 menawarkan keseimbangan sumber daya komputasi, memori, dan jaringan. Contoh R5 adalah instans yang dioptimalkan memori. Baik M5 dan R5 menyediakan jenis instans untuk mengoptimalkan biaya dan kinerja beban kerja Anda.

Untuk mempelajari lebih lanjut tentang menggunakan aliran data dengan Data Wrangler, lihat Buat dan Gunakan Aliran Data Wrangler dan Harga Amazon SageMaker. Untuk memulai dengan Data Wrangler, lihat Siapkan Data ML dengan Amazon SageMaker Data Wrangler.


Tentang Penulis

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Haider Naqvi adalah Arsitek Solusi di AWS. Dia memiliki pengalaman pengembangan perangkat lunak dan arsitektur perusahaan yang luas. Dia berfokus untuk memungkinkan pelanggan mencapai hasil bisnis dengan AWS. Dia berbasis di New York.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Huong Nguyen adalah Manajer Produk Senior di AWS. Dia memimpin integrasi ekosistem data untuk SageMaker, dengan 14 tahun pengalaman membangun produk yang berpusat pada pelanggan dan berbasis data untuk ruang perusahaan dan konsumen.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis berteknologi tinggi dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Sriharsa M Sr adalah Arsitek Solusi Spesialis AI/ML dalam tim Spesialis Strategis di Amazon Web Services. Dia bekerja dengan pelanggan AWS strategis yang memanfaatkan AI/ML untuk memecahkan masalah bisnis yang kompleks. Dia memberikan bimbingan teknis dan saran desain untuk mengimplementasikan aplikasi AI/ML dalam skala besar. Keahliannya mencakup arsitektur aplikasi, data besar, analitik, dan pembelajaran mesin.

Memproses kumpulan data yang lebih besar dan lebih luas dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Nikita Ivkin adalah Ilmuwan Terapan, Amazon SageMaker Data Wrangler.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS