Persiapan Data Hemat Biaya Untuk Pembelajaran Mesin Menggunakan SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Pengatur Data Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan fitur berkualitas tinggi untuk aplikasi pembelajaran mesin (ML) melalui antarmuka visual. Data Wrangler mengurangi waktu yang diperlukan untuk menggabungkan dan menyiapkan data untuk ML dari minggu ke menit. Dengan Data Wrangler, Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi dari satu antarmuka visual.

Dalam posting ini, kami membahas berbagai aspek persiapan data dan fitur terkait Data Wrangler untuk memahami komponen biaya persiapan data dan bagaimana Data Wrangler menawarkan pendekatan hemat biaya untuk persiapan data. Kami juga membahas praktik terbaik pengoptimalan biaya untuk lebih mengurangi biaya persiapan data di Data Wrangler.

Ikhtisar analisis data eksplorasi (EDA) dan persiapan data di Data Wrangler

Untuk memahami efektivitas biaya Data Wrangler, penting untuk melihat berbagai aspek EDA dan fase persiapan data ML. Blog ini tidak akan membandingkan platform atau layanan yang berbeda untuk EDA, tetapi memahami langkah-langkah yang berbeda dalam EDA, pertimbangan biayanya, dan bagaimana Data Wrangler memfasilitasi EDA dengan cara yang hemat biaya.

Pengalaman EDA khas seorang ilmuwan data terdiri dari langkah-langkah berikut:

Luncurkan instance notebook Jupyter untuk menjalankan EDA.
Impor paket yang diperlukan untuk analisis dan visualisasi data.
Impor data dari berbagai sumber.
Lakukan transformasi seperti menangani nilai dan outlier yang hilang, enkode one-hot, penyeimbangan data, dan lainnya untuk membersihkan data dan membuatnya siap untuk dimodelkan.
Visualisasikan datanya.
Buat mekanisme untuk mengulangi langkah-langkah tersebut.
Ekspor data yang diproses untuk analitik hilir atau ML.

Langkah-langkah ini rumit, dan memerlukan fleksibilitas dalam komputasi dan persyaratan memori sehingga Anda dapat menjalankan setiap langkah dengan komputasi dan memori yang sesuai. Anda juga memerlukan sistem terintegrasi yang dapat mengimpor data dari berbagai sumber dan mekanisme untuk diulang atau digunakan kembali sehingga Anda dapat menerapkan langkah EDA yang sama yang telah Anda buat ke set data yang lebih besar, serupa, atau berbeda seperti yang diperlukan oleh pipeline ML hilir Anda.

Pertimbangan biaya EDA

Berikut ini adalah beberapa pertimbangan biaya untuk EDA:

menghitung

Beberapa lingkungan EDA memerlukan data dalam format tertentu. Dalam kasus seperti itu, Anda perlu memproses data ke format yang diterima oleh lingkungan EDA. Misalnya, jika lingkungan hanya menerima format CSV tetapi Anda memiliki data dalam Parket atau format lain, Anda harus mengonversi kumpulan data Anda ke format CSV. Memformat ulang data membutuhkan komputasi.
Tidak semua lingkungan memiliki fleksibilitas untuk mengubah konfigurasi komputasi atau memori dengan mengklik tombol. Anda mungkin perlu memiliki kapasitas komputasi dan jejak memori tertinggi sebagaimana berlaku untuk setiap transformasi yang Anda lakukan.

Penyimpanan dan transfer data

Data dari berbagai sumber harus dikumpulkan. Jika hanya sumber yang dipilih yang didukung oleh lingkungan EDA, Anda mungkin harus memindahkan data dari sumber yang berbeda ke satu sumber yang didukung tersebut, yang meningkatkan biaya penyimpanan dan transfer data.

Biaya tenaga kerja dan keahlian

Mengelola platform EDA dan infrastruktur komputasi yang mendasarinya melibatkan keahlian, upaya, dan biaya. Ketika Anda mengelola infrastruktur, Anda memiliki beban operasional untuk mengelola sistem operasi dan aplikasi seperti penyediaan, patching, dan peningkatan. Pastikan untuk mengidentifikasi masalah dengan cepat. Jika Anda tidak memvalidasi data sebelum membangun model Anda, Anda telah membuang banyak sumber daya serta waktu insinyur.
Perhatikan bahwa EDA membutuhkan ilmu data dan keahlian pengalaman data.
Selain itu, beberapa lingkungan EDA tidak menawarkan antarmuka titik-dan-klik dan mengharuskan Anda menulis kode untuk menjelajahi, memvisualisasikan, dan mengubah data, yang melibatkan biaya tenaga kerja.

Biaya operasi

Untuk memindahkan data dari sumber untuk melakukan transformasi dan kemudian ke pipeline ML hilir, Anda mungkin harus melakukan langkah EDA berulang lagi dari awal pengambilan data di setiap fase EDA, yang memakan waktu dan membawa biaya tenaga kerja. Jika Anda dapat menggunakan data yang diubah dari langkah sebelumnya, itu tidak meningkatkan biaya secara kumulatif.
Memiliki mekanisme yang mudah untuk mengulangi rangkaian langkah EDA yang sama pada set data yang serupa atau tambahan akan menghemat waktu serta biaya dari sudut pandang orang dan sumber daya komputasi.

Mari kita lihat bagaimana Data Wrangler memfasilitasi EDA atau persiapan data dengan cara yang hemat biaya sehubungan dengan area yang berbeda ini.

menghitung

Saat Anda menjalankan EDA di notebook, Anda mungkin tidak memiliki fleksibilitas untuk menskalakan komputasi atau memori sesuai permintaan, yang mungkin memaksa Anda untuk menjalankan transformasi dan visualisasi dalam lingkungan yang terlalu besar. Jika Anda memiliki lingkungan berukuran kecil, Anda mungkin mengalami masalah kehabisan memori. Di Data Wrangler, Anda dapat memilih jenis instans yang lebih kecil untuk transformasi atau analisis tertentu, lalu meningkatkan skala instans ke tipe yang lebih besar dan melakukan transformasi kompleks. Ketika transformasi kompleks selesai, Anda dapat menurunkan skala instans Data Wrangler ke jenis instans yang lebih kecil. Ini memberi Anda fleksibilitas untuk menskalakan komputasi Anda berdasarkan persyaratan transformasi.

Data Wrangler mendukung a berbagai jenis contoh, dan Anda dapat memilih yang tepat untuk beban kerja Anda, sehingga menghilangkan biaya lingkungan yang terlalu besar atau terlalu kecil.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Penyimpanan dan transfer data

Pada bagian ini, kita membahas beberapa pertimbangan biaya untuk penyimpanan dan transfer data.

impor

Data untuk ML sering kali tersedia dari berbagai sumber dan dalam format yang berbeda. Dengan Data Wrangler, Anda dapat mengimpor data dari sumber data berikut ini: Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, Formasi Danau AWS, Toko Fitur Amazon SageMaker dan Kepingan salju. Data dapat dalam salah satu format berikut: CSV, Parket, JSON, dan Optimized Row Columnar (ORC), dan lebih banyak format data akan ditambahkan berdasarkan permintaan pelanggan. Karena sumber data penting sudah didukung di Data Wrangler, data dapat langsung diimpor dari sumber masing-masing, dan Anda hanya membayar penyimpanan yang disediakan selama GB-bulan. Untuk informasi lebih lanjut, lihat Harga Amazon SageMaker.

Semua eksplorasi data berulang, transformasi data, dan visualisasi dapat dilakukan di dalam Data Wrangler itu sendiri. Ini menghilangkan pergerakan data lebih lanjut dibandingkan dengan lingkungan lain di mana Anda mungkin harus memindahkan data ke lokasi yang berbeda untuk penyerapan, transformasi, dan pemrosesan. Dari perspektif biaya, ini menghilangkan penyimpanan data duplikat serta mengurangi pergerakan data.

Biaya kualitas data

Jika Anda tidak mengidentifikasi data yang buruk dan memperbaikinya lebih awal, itu akan menjadi masalah yang mahal untuk dipecahkan nanti. Itu Kualitas Data dan Laporan Wawasan membantu Anda menghilangkan masalah ini. Anda dapat menggunakan Kualitas Data dan Laporan Wawasan untuk melakukan analisis data guna mendapatkan wawasan tentang kumpulan data Anda, seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran atau ketidakseimbangan target, laporan wawasan dapat membawa masalah tersebut menjadi perhatian Anda. Segera setelah Anda mengimpor data, Anda dapat menjalankan laporan wawasan dengan mengklik tombol. Ini mengurangi upaya mengimpor perpustakaan dan menulis kode untuk mendapatkan wawasan yang diperlukan pada kumpulan data, yang mengurangi biaya tenaga kerja dan keahlian yang diperlukan.

Saat Anda membuat Kualitas Data dan Laporan Wawasan, Data Wrangler memberi Anda opsi untuk memilih kolom target (kolom yang Anda coba prediksi). Saat Anda memilih kolom target, Data Wrangler secara otomatis membuat analisis kolom target. Itu juga memberi peringkat fitur dalam urutan kekuatan prediktifnya (lihat tangkapan layar berikut). Ini berkontribusi pada manfaat bisnis langsung dari fitur berkualitas tinggi untuk proses ML hilir.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Transformasi

Jika alat EDA Anda hanya mendukung transformasi tertentu, Anda mungkin perlu memindahkan data ke lingkungan yang berbeda untuk melakukan transformasi kustom seperti pekerjaan Spark. Data Wrangler mendukung transformasi khusus, yang dapat ditulis dalam PySpark, Pandas, dan SQL (lihat tangkapan layar berikut untuk contoh). Mereka ramah pengembang dan semuanya dikemas dengan mulus ke satu tempat, mengurangi pergerakan data dan menghemat biaya yang terkait dengan transfer dan penyimpanan data.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda mungkin juga perlu melakukan operasi matematika pada kumpulan data Anda, seperti mengambil nilai absolut dari sebuah kolom. Jika alat EDA Anda tidak mendukung operasi matematika, Anda mungkin harus melakukan operasi secara eksternal, yang memerlukan usaha dan biaya tambahan. Beberapa alat mungkin mendukung operasi matematika pada kumpulan data tetapi mengharuskan Anda untuk mengimpor pustaka, yang memerlukan upaya tambahan. Di Data Wrangler, Anda juga dapat menggunakan rumus khusus untuk menentukan kolom baru menggunakan ekspresi Spark SQL untuk membuat kueri data dalam bingkai data saat ini tanpa menimbulkan biaya tambahan apa pun untuk transformasi kustom atau kueri kustom.

Biaya tenaga kerja dan keahlian

Mengelola platform EDA dan infrastruktur komputasi yang mendasarinya melibatkan keahlian, upaya, dan biaya. Data Wrangler menawarkan pilihan lebih dari 300 transformasi data prakonfigurasi yang ditulis di PySpark, sehingga Anda dapat memproses kumpulan data hingga ratusan gigabyte secara efisien tanpa harus khawatir menulis kode untuk mengubah data. Anda dapat menggunakan transformasi seperti konversi tipe kolom, satu pengodean panas, imputasi data yang hilang dengan mean atau median, skala ulang kolom, dan penyematan data/waktu untuk mengubah data Anda ke dalam format yang dapat digunakan model bahkan tanpa menulis satu baris kode pun. Hal ini mengurangi waktu dan tenaga, sehingga mengurangi biaya tenaga kerja.

Data Wrangler menawarkan antarmuka titik-dan-klik untuk memvisualisasikan dan memvalidasi data (lihat tangkapan layar berikut). Tidak diperlukan keahlian dalam rekayasa data atau analitik karena semua persiapan data dapat dilakukan melalui titik dan klik sederhana.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Visualisasi

Data Wrangler membantu Anda memahami data Anda dan mengidentifikasi potensi kesalahan dan nilai ekstrem dengan satu set templat visualisasi kuat yang telah dikonfigurasi sebelumnya. Anda tidak perlu keakraban atau menghabiskan waktu tambahan untuk mengimpor pustaka atau dependensi eksternal apa pun untuk melakukan visualisasi. Histogram, plot sebar, plot kotak dan kumis, plot garis, dan diagram batang semuanya tersedia (lihat tangkapan layar berikut untuk beberapa contoh). Template seperti histogram memudahkan untuk membuat dan mengedit visualisasi Anda sendiri tanpa menulis kode.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pengesahan

Data Wrangler memungkinkan Anda dengan cepat mengidentifikasi inkonsistensi dalam alur kerja persiapan data Anda dan mendiagnosis masalah sebelum model diterapkan ke dalam produksi (lihat tangkapan layar berikut). Anda dapat dengan cepat mengidentifikasi apakah data yang Anda siapkan akan menghasilkan model yang akurat sehingga Anda dapat menentukan apakah rekayasa fitur tambahan diperlukan untuk meningkatkan kinerja. Semua ini terjadi sebelum fase pembuatan model, sehingga tidak ada biaya tenaga kerja tambahan untuk membangun model yang tidak berkinerja seperti yang diharapkan (metrik kinerja rendah) yang akan menghasilkan transformasi tambahan setelah pembuatan model. Validasi juga menghasilkan manfaat bisnis dari fitur kualitas yang lebih baik.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Bangun jalur persiapan data yang skalabel

Saat Anda melakukan EDA, Anda harus membangun jalur persiapan data yang dapat diskalakan dengan kumpulan data (lihat tangkapan layar berikut). Ini penting untuk pengulangan serta proses ML hilir. Biasanya, pelanggan menggunakan Spark karena sifatnya yang terdistribusi, terukur, dan dalam memori; namun, ini membutuhkan banyak keahlian di Spark. Menyiapkan lingkungan Spark memakan waktu dan membutuhkan keahlian untuk konfigurasi yang optimal. Dengan Data Wrangler, Anda dapat membuat pekerjaan pemrosesan data dan mengekspor ke Amazon S3 dan Amazon feature store murni melalui antarmuka visual tanpa harus membuat, menjalankan, atau mengelola notebook Jupyter, yang memfasilitasi jalur persiapan data yang dapat diskalakan tanpa keahlian Spark. Untuk informasi lebih lanjut, lihat Luncurkan pekerjaan pemrosesan dengan beberapa klik menggunakan Amazon SageMaker Data Wrangler.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Biaya operasi

Integrasi mungkin bukan merupakan manfaat biaya langsung; namun, ada manfaat biaya tidak langsung saat Anda bekerja di lingkungan terintegrasi seperti SageMaker. Karena Data Wrangler terintegrasi dengan layanan AWS, Anda dapat mengekspor alur kerja persiapan data Anda ke buku catatan tugas Data Wrangler, dan meluncurkan Autopilot Amazon SageMaker percobaan pelatihan, Pipa Amazon SageMaker buku catatan, atau skrip kode. Anda juga dapat membuat tugas pemrosesan Data Wrangler dengan satu klik tanpa perlu menyiapkan dan mengelola infrastruktur untuk melakukan langkah berulang atau otomatisasi dalam alur kerja ML.

Dalam aliran Data Wrangler Anda, Anda dapat ekspor beberapa atau semua transformasi yang Anda buat pada alur pemrosesan data Anda. Saat Anda mengekspor aliran data, Anda akan dikenakan biaya untuk sumber daya AWS yang Anda gunakan. Dari perspektif biaya, mengekspor transformasi memberi Anda kemampuan untuk mengulangi transformasi pada kumpulan data tambahan tanpa upaya tambahan.

Dengan Data Wrangler, Anda dapat ekspor semua transformasi yang Anda buat ke dataset ke node tujuan hanya dengan beberapa klik. Ini memungkinkan Anda membuat pekerjaan pemrosesan data dan mengekspor ke Amazon S3 murni melalui antarmuka visual tanpa harus membuat, menjalankan, atau mengelola notebook Jupyter, sehingga meningkatkan pengalaman kode rendah.

Data Wrangler memungkinkan Anda mengekspor langkah-langkah persiapan data atau aliran data ke lingkungan yang berbeda. Data Wrangler memiliki integrasi tanpa batas dengan layanan dan fitur AWS lainnya, seperti berikut ini:

Toko Fitur SageMaker – Anda dapat merekayasa fitur model Anda menggunakan Data Wrangler dan kemudian masuk ke toko fitur Anda, yang merupakan penyimpanan terpusat untuk fitur dan metadata terkaitnya
Pipa SageMaker – Anda dapat menggunakan aliran data yang diekspor dari Data Wrangler di pipeline SageMaker, yang digunakan untuk membangun dan menerapkan alur kerja ML skala besar
Amazon S3 – Anda dapat mengekspor data ke Amazon S3 dan menggunakannya untuk membuat pekerjaan Data Wrangler
Ular sanca – Terakhir, Anda dapat mengekspor semua langkah dalam aliran data Anda ke file Python, yang dapat Anda integrasikan secara manual ke dalam alur kerja pemrosesan data apa pun.

Integrasi yang ketat seperti itu membantu mengurangi upaya, waktu, keahlian, dan biaya.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Praktik terbaik pengoptimalan biaya

Di bagian ini, kami membahas praktik terbaik untuk lebih mengoptimalkan biaya di Data Wrangler.

Perbarui Data Wrangler ke rilis terbaru

Bila Anda perbarui Data Wrangler hingga rilis terbaru, Anda mendapatkan semua fitur terbaru, keamanan, dan pengoptimalan keseluruhan yang dibuat untuk Data Wrangler, yang dapat meningkatkan efektivitas biayanya.

Gunakan transformer Data Wrangler bawaan

Gunakan transformer Data Wrangler bawaan di atas transformasi Panda kustom saat memproses kumpulan data yang lebih besar dan lebih luas.

Pilih jenis instans yang tepat untuk aliran Data Wrangler Anda

Ada dua kelompok jenis instans ml yang didukung untuk Data Wrangler: m5 dan r5. instans m5 adalah instans tujuan umum yang memberikan keseimbangan antara komputasi dan memori, sedangkan instans r5 dirancang untuk memberikan kinerja cepat untuk memproses kumpulan data besar dalam memori.

Sebaiknya pilih instans yang paling dioptimalkan untuk beban kerja Anda. Misalnya, r5.8xlarge mungkin memiliki harga yang lebih tinggi daripada m5.4xlarge, tetapi r5.8xlarge mungkin lebih dioptimalkan untuk beban kerja Anda. Dengan instans yang dioptimalkan dengan lebih baik, Anda dapat menjalankan aliran data dalam waktu yang lebih singkat dengan biaya yang lebih rendah.

Persiapan data hemat biaya untuk pembelajaran mesin menggunakan SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Memproses kumpulan data yang lebih besar dan lebih luas

Untuk kumpulan data yang lebih besar dari puluhan gigabyte, sebaiknya gunakan transformasi bawaan, atau pengambilan sampel data saat impor untuk menjalankan transformasi Panda kustom secara interaktif. Dalam pos, kami membagikan temuan kami dari dua tes benchmark untuk menunjukkan bagaimana melakukan ini.

Matikan instance yang tidak digunakan

Anda dikenakan biaya untuk semua instans yang berjalan. Untuk menghindari timbulnya biaya tambahan, matikan instans yang tidak Anda gunakan secara manual. Untuk mematikan instans yang sedang berjalan, selesaikan langkah-langkah berikut:

Di halaman aliran data Anda, pilih ikon instans di panel navigasi di bawah Menjalankan instance.
Pilih menutup.

Jika Anda mematikan instance yang digunakan untuk menjalankan alur, Anda tidak dapat mengakses alur untuk sementara. Jika Anda mendapatkan kesalahan saat membuka alur yang menjalankan instans yang sebelumnya Anda matikan, tunggu sekitar 5 menit dan coba buka lagi.

Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instans yang dijalankannya untuk menghindari biaya tambahan. Untuk informasi lebih lanjut, lihat Matikan Data Wrangler.

Untuk informasi tentang mematikan sumber daya Data Wrangler secara otomatis, lihat Hemat biaya dengan secara otomatis mematikan sumber daya yang tidak digunakan dalam Amazon SageMaker Studio.

Ekspor

Saat Anda mengekspor aliran atau transformasi Data Wrangler, Anda dapat menggunakan tag alokasi biaya untuk mengatur dan mengelola biaya sumber daya tersebut. Anda membuat tag ini untuk profil pengguna Anda dan Data Wrangler secara otomatis menerapkannya ke sumber daya yang digunakan untuk mengekspor aliran data. Untuk informasi lebih lanjut, lihat Menggunakan Tag Alokasi Biaya.

Harga

Harga Data Wrangler memiliki tiga komponen: instans Data Wrangler, tugas Data Wrangler, dan penyimpanan ML. Anda dapat melakukan semua langkah untuk EDA atau persiapan data dalam Data Wrangler dan Anda membayar instans, pekerjaan, dan harga penyimpanan berdasarkan penggunaan atau konsumsi, tanpa biaya di muka atau lisensi. Untuk informasi lebih lanjut, lihat Harga Sesuai Permintaan.

Kesimpulan

Dalam posting ini, kami meninjau berbagai aspek biaya EDA dan persiapan data untuk menemukan bagaimana Pengatur Data yang kaya fitur dan terintegrasi mengurangi waktu yang diperlukan untuk mengumpulkan dan menyiapkan data untuk kasus penggunaan ML dari minggu ke menit, sehingga memfasilitasi persiapan data yang hemat biaya untuk ML. Kami juga memeriksa komponen harga Data Wrangler dan praktik terbaik untuk pengoptimalan biaya saat menggunakan Data Wrangler untuk persyaratan persiapan data ML Anda.

Untuk informasi lebih lanjut, lihat sumber daya berikut:

Tentang Penulis

Rajakumar Sampatkumar adalah Manajer Akun Teknis Utama di AWS, yang memberikan panduan kepada pelanggan tentang penyelarasan teknologi bisnis dan mendukung penemuan kembali model dan proses operasi cloud mereka. Dia bersemangat tentang cloud dan pembelajaran mesin. Raj juga merupakan spesialis pembelajaran mesin dan bekerja dengan pelanggan AWS untuk merancang, menerapkan, dan mengelola beban kerja dan arsitektur AWS mereka.

Rahul Nabera adalah Konsultan Analisis Data di AWS Professional Services. Pekerjaannya saat ini berfokus pada memungkinkan pelanggan membangun data dan beban kerja pembelajaran mesin mereka di AWS. Di waktu luangnya, ia menikmati bermain kriket dan bola voli.

Stempel Waktu: November 7, 2022November 7, 2022

Stempel Waktu: Mar 1, 2024

Ikhtisar analisis data eksplorasi (EDA) dan persiapan data di Data Wrangler

Pertimbangan biaya EDA

menghitung

Penyimpanan dan transfer data

Biaya tenaga kerja dan keahlian

Biaya operasi

menghitung

Penyimpanan dan transfer data

impor

Biaya kualitas data

Transformasi

Biaya tenaga kerja dan keahlian

Visualisasi

Pengesahan

Bangun jalur persiapan data yang skalabel

Biaya operasi

Praktik terbaik pengoptimalan biaya

Perbarui Data Wrangler ke rilis terbaru

Gunakan transformer Data Wrangler bawaan

Pilih jenis instans yang tepat untuk aliran Data Wrangler Anda

Memproses kumpulan data yang lebih besar dan lebih luas

Matikan instance yang tidak digunakan

Ekspor

Harga

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun