Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler

Dalam posting ini, kami memandu Anda melalui dua teknik pengambilan sampel di Pengatur Data Amazon SageMaker sehingga Anda dapat dengan cepat membuat alur kerja pemrosesan untuk data Anda. Kami mencakup teknik pengambilan sampel acak dan pengambilan sampel bertingkat untuk membantu Anda mengambil sampel data berdasarkan kebutuhan spesifik Anda.

Data Wrangler mengurangi waktu yang diperlukan untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit. Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi, dari satu antarmuka visual. Dengan alat pemilihan data Data Wrangler, Anda dapat memilih data yang Anda inginkan dari berbagai sumber data dan mengimpornya dengan satu klik. Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun. Dengan template visualisasi Data Wrangler, Anda dapat dengan cepat melihat pratinjau dan memeriksa apakah transformasi ini selesai seperti yang Anda inginkan dengan melihatnya di Studio Amazon SageMaker, lingkungan pengembangan terintegrasi penuh (IDE) pertama untuk ML. Setelah data Anda disiapkan, Anda dapat membangun alur kerja ML yang sepenuhnya otomatis dengan Pipa Amazon SageMaker dan simpan untuk digunakan kembali di Toko Fitur Amazon SageMaker.

Apa itu sampling dan bagaimana itu bisa membantu?

Dalam analisis statistik, kumpulan total pengamatan dikenal sebagai populasi. Saat bekerja dengan data, seringkali tidak layak secara komputasi untuk mengukur setiap pengamatan dari populasi. Pengambilan sampel statistik adalah prosedur yang memungkinkan Anda untuk memahami data Anda dengan memilih himpunan bagian dari populasi.

Pengambilan sampel menawarkan solusi praktis yang mengorbankan akurasi demi kepraktisan dan kemudahan. Untuk memastikan sampel Anda merupakan representasi yang baik dari keseluruhan populasi, Anda dapat menggunakan strategi pengambilan sampel. Data Wrangler mendukung dua strategi paling umum: pengambilan sampel acak dan pengambilan sampel bertingkat.

Pengambilan sampel secara acak

Jika Anda memiliki kumpulan data yang besar, eksperimen pada kumpulan data tersebut mungkin memakan waktu. Data Wrangler menyediakan pengambilan sampel acak sehingga Anda dapat memproses dan memvisualisasikan data Anda secara efisien. Misalnya, Anda mungkin ingin menghitung jumlah rata-rata pembelian untuk pelanggan dalam jangka waktu tertentu, atau Anda mungkin ingin menghitung tingkat pengurangan pelanggan. Anda dapat menggunakan sampel acak untuk memvisualisasikan perkiraan metrik ini.

Sampel acak dari kumpulan data Anda dipilih sehingga setiap elemen memiliki probabilitas yang sama untuk dipilih. Operasi ini dilakukan dengan cara yang efisien sesuai untuk kumpulan data yang besar, sehingga ukuran sampel yang dikembalikan kira-kira sebesar yang diminta, dan tidak harus sama dengan ukuran yang diminta.

Anda dapat menggunakan pengambilan sampel acak jika Anda ingin melakukan perhitungan perkiraan cepat untuk memahami kumpulan data Anda. Karena ukuran sampel semakin besar, sampel acak dapat memperkirakan seluruh kumpulan data dengan lebih baik, tetapi kecuali Anda menyertakan semua titik data, sampel acak Anda mungkin tidak menyertakan semua outlier dan kasus tepi. Jika Anda ingin menyiapkan seluruh kumpulan data secara interaktif, Anda juga dapat beralih ke jenis instans yang lebih besar.

Sebagai aturan umum, kesalahan pengambilan sampel dalam menghitung rata-rata populasi menggunakan sampel acak cenderung 0 karena sampel semakin besar. Ketika ukuran sampel meningkat, kesalahan berkurang sebagai kebalikan dari akar kuadrat dari ukuran sampel. Kesimpulannya, semakin besar sampelnya, semakin baik pendekatannya.

Pengambilan sampel bertingkat

Dalam beberapa kasus, populasi Anda dapat dibagi menjadi strata, atau wadah yang saling eksklusif, seperti lokasi geografis untuk alamat, tahun publikasi untuk lagu, atau kurung pajak untuk pendapatan. Pengambilan sampel acak adalah teknik pengambilan sampel yang paling populer, tetapi jika beberapa strata tidak umum dalam populasi Anda, Anda dapat menggunakan pengambilan sampel bertingkat di Data Wrangler untuk memastikan bahwa setiap strata terwakili secara proporsional dalam sampel Anda. Ini mungkin berguna untuk mengurangi kesalahan pengambilan sampel serta memastikan Anda menangkap kasus tepi selama eksperimen.

Di dunia nyata, transaksi kartu kredit penipuan adalah kejadian langka dan biasanya hanya menghasilkan kurang dari 1% dari data Anda. Jika kita mengambil sampel secara acak, tidak jarang sampel mengandung sangat sedikit atau tidak ada transaksi penipuan. Akibatnya, ketika melatih model, kita akan memiliki terlalu sedikit contoh curang untuk mempelajari model yang akurat. Kita dapat menggunakan sampling bertingkat untuk memastikan bahwa kita memiliki representasi proporsional dari transaksi penipuan.

Dalam stratified sampling, ukuran setiap strata dalam sampel sebanding dengan ukuran strata dalam populasi. Ini bekerja dengan membagi data Anda ke dalam strata berdasarkan kolom yang Anda tentukan, memilih sampel acak dari setiap strata dengan proporsi yang benar, dan menggabungkan sampel tersebut menjadi sampel populasi bertingkat.

Pengambilan sampel bertingkat adalah teknik yang berguna ketika Anda ingin memahami bagaimana kelompok yang berbeda dalam data Anda dibandingkan satu sama lain, dan Anda ingin memastikan bahwa Anda memiliki representasi yang sesuai dari setiap kelompok.

Pengambilan sampel acak saat mengimpor dari Amazon S3

Di bagian ini, kami menggunakan pengambilan sampel acak dengan kumpulan data yang terdiri dari peristiwa penipuan dan non-penipuan dari sistem deteksi penipuan kami. Kamu bisa Download kumpulan data untuk diikuti dengan posting ini (Lisensi atribusi internasional CC 4.0).

Pada saat penulisan ini, Anda dapat mengimpor kumpulan data dari Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, dan Kepingan Salju. Dataset kami sangat besar, berisi 1 juta baris. Dalam hal ini, kami ingin mengambil sampel 1,0000 baris saat diimpor dari Amazon S3 untuk beberapa eksperimen interaktif dalam Data Wrangler.

  1. Buka SageMaker Studio dan buat alur Data Wrangler baru.
  2. Bawah Impor data, pilih Amazon S3.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
  3. Pilih kumpulan data yang akan diimpor.
  4. Dalam majalah Rincian panel, berikan nama set data dan jenis file Anda.
  5. Untuk Sampling, pilih Acak.
  6. Untuk Ukuran sampel, Masuk 10000.
  7. Pilih impor untuk memuat dataset ke dalam Data Wrangler.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Anda dapat memvisualisasikan dua langkah berbeda pada halaman aliran data di Data Wrangler. Langkah pertama menunjukkan pemuatan kumpulan data sampel berdasarkan strategi pengambilan sampel yang Anda tetapkan. Setelah data dimuat, Data Wrangler melakukan deteksi otomatis terhadap tipe data untuk setiap kolom dalam kumpulan data. Langkah ini ditambahkan secara default untuk semua kumpulan data.

Anda sekarang dapat meninjau data sampel acak di Data Wrangler dengan menambahkan analisis.

  1. Pilih tanda plus di sebelah Tipe data Dan pilihlah Analisis.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
  2. Untuk Jenis analisisยธ pilih Plot Pencar.
  3. Pilih prestasi_1 dan prestasi_2 seperti untuk sumbu X dan sumbu Y, Masing-masing.
  4. Untuk Warnai dengan, pilih adalah_penipuan.

Saat Anda merasa nyaman dengan kumpulan data, lanjutkan untuk melakukan transformasi data lebih lanjut sesuai kebutuhan bisnis Anda untuk menyiapkan data Anda untuk ML.

Pada tangkapan layar berikut, kami dapat mengamati transaksi penipuan (biru tua) dan non-penipuan (biru muda) dalam analisis kami.
Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pada bagian selanjutnya, kita akan membahas penggunaan stratified sampling untuk memastikan kasus penipuan dipilih secara proporsional.

Pengambilan sampel bertingkat dengan transformasi

Data Wrangler memungkinkan Anda mengambil sampel saat impor, serta mengambil sampel melalui transformasi. Di bagian ini, kami membahas penggunaan pengambilan sampel bertingkat melalui transformasi setelah Anda mengimpor kumpulan data Anda ke dalam Data Wrangler.

  1. Untuk memulai pengambilan sampel, pada Aliran data tab, pilih tanda plus di sebelah dataset yang diimpor dan pilih Tambahkan Transform.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Pada saat penulisan ini, Data Wrangler menyediakan lebih dari 300 transformasi bawaan. Selain transformasi bawaan, Anda dapat menulis transformasi kustom Anda sendiri di Pandas atau PySpark.

  1. Dari Tambahkan transformasi daftar, pilih Sampling.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Anda sekarang dapat menggunakan tiga strategi pengambilan sampel yang berbeda: limit, random, dan stratified.
Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

  1. Untuk Metode pengambilan sampel, pilih Bertingkat.
  2. Gunakan is_fraud kolom sebagai kolom stratifikasi.
  3. Pilih Preview untuk melihat pratinjau transformasi, lalu pilih Add untuk menambahkan transformasi ini sebagai langkah ke resep transformasi Anda.
    Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Aliran data Anda sekarang mencerminkan langkah pengambilan sampel yang ditambahkan.
Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Sekarang kita dapat meninjau data sampel acak dengan menambahkan analisis.

  1. Pilih tanda plus dan pilih Analisis.
  2. Untuk Jenis analisisยธ pilih Histogram.
  3. Pilih adalah_penipuan untuk kedua sumbu X dan Warnai dengan.
  4. Pilih Preview.

Pada tangkapan layar berikut, kita dapat mengamati perincian kasus penipuan (biru tua) dan non-penipuan (biru muda) yang dipilih melalui pengambilan sampel bertingkat dalam proporsi yang benar dari 20% penipuan dan 80% non-penipuan.

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kesimpulan

Sangat penting untuk mengambil sampel data dengan benar saat bekerja dengan kumpulan data yang sangat besar dan untuk memilih strategi pengambilan sampel yang tepat untuk memenuhi kebutuhan bisnis Anda. Efektivitas pengambilan sampel Anda bergantung pada berbagai faktor, termasuk hasil bisnis, ketersediaan data, dan distribusi. Dalam posting ini, kami membahas cara menggunakan Data Wrangler dan strategi pengambilan sampel bawaannya untuk menyiapkan data Anda.

Anda dapat mulai menggunakan kemampuan ini hari ini di semua Wilayah tempat SageMaker Studio tersedia. Untuk memulai, kunjungi Siapkan Data ML dengan Amazon SageMaker Data Wrangler.

Ucapan Terima Kasih

Penulis ingin mengucapkan terima kasih kepada Jonathan Chung (Ilmuwan Terapan) atas ulasan dan umpan baliknya yang berharga pada artikel ini.


Tentang Penulis

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Ben Harris adalah seorang insinyur perangkat lunak dengan pengalaman merancang, menerapkan, dan memelihara saluran data yang dapat diskalakan dan solusi pembelajaran mesin di berbagai domain.

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Vishaal Kapoor adalah Ilmuwan Terapan Senior dengan AWS AI. Dia bersemangat membantu pelanggan memahami data mereka di Data Wrangler. Di waktu luangnya, ia bersepeda gunung, bermain snowboard, dan menghabiskan waktu bersama keluarganya.

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis Hi-Tech dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.

Buat sampel data acak dan bertingkat dengan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Ajai Sharma adalah Manajer Produk Utama untuk Amazon SageMaker di mana dia berfokus pada Data Wrangler, alat persiapan data visual untuk ilmuwan data. Sebelum bergabung dengan AWS, Ajai adalah Pakar Ilmu Data di McKinsey and Company, di mana dia memimpin keterlibatan yang berfokus pada ML untuk perusahaan keuangan dan asuransi terkemuka di seluruh dunia. Ajai sangat menyukai ilmu data dan suka menjelajahi algoritme dan teknik pembelajaran mesin terbaru.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS