Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Memperkenalkan visualisasi tersemat baru Amazon SageMaker Data Wrangler

Memeriksa kualitas data dan membersihkan data secara manual adalah proses yang menyakitkan dan memakan waktu yang dapat menghabiskan banyak waktu ilmuwan data dalam sebuah proyek. Menurut survei ilmuwan data tahun 2020 yang dilakukan oleh Anaconda, ilmuwan data menghabiskan sekitar 66% waktunya untuk persiapan data dan tugas analisis, termasuk memuat (19%), membersihkan (26%), dan memvisualisasikan data (21%). Amazon SageMaker menawarkan berbagai alat persiapan data untuk memenuhi berbagai kebutuhan dan preferensi pelanggan. Untuk pengguna yang lebih menyukai antarmuka interaktif berbasis GUI, Pengatur Data SageMaker menawarkan 300+ visualisasi, analisis, dan transformasi bawaan untuk memproses data yang didukung oleh Spark secara efisien tanpa menulis satu baris kode pun.

Visualisasi data dalam pembelajaran mesin (ML) adalah proses berulang dan membutuhkan visualisasi dataset yang berkelanjutan untuk penemuan, penyelidikan, dan validasi. Menempatkan data ke dalam perspektif memerlukan melihat setiap kolom untuk memahami kemungkinan kesalahan data, nilai yang hilang, tipe data yang salah, data yang menyesatkan/salah, data outlier, dan banyak lagi.

Dalam posting ini, kami akan menunjukkan caranya Pengatur Data Amazon SageMaker secara otomatis menghasilkan visualisasi utama dari distribusi data, mendeteksi masalah kualitas data, dan memunculkan wawasan data seperti outlier untuk setiap fitur tanpa menulis satu baris kode pun. Ini membantu meningkatkan pengalaman kisi data dengan peringatan kualitas otomatis (misalnya, nilai yang hilang atau nilai yang tidak valid). Visualisasi yang dihasilkan secara otomatis juga interaktif. Misalnya, Anda dapat menampilkan tabulasi dari lima item paling sering teratas yang diurutkan berdasarkan persen, dan mengarahkan kursor ke bilah untuk beralih antara hitungan dan persentase.

Prasyarat

Amazon SageMaker Data Wrangler adalah fitur SageMaker yang tersedia dalam SageMaker Studio. Anda bisa mengikuti proses orientasi Studio untuk mengaktifkan lingkungan Studio dan notebook. Meskipun Anda dapat memilih dari beberapa metode autentikasi, cara termudah untuk membuat domain Studio adalah dengan mengikuti Instruksi mulai cepat. Mulai cepat menggunakan pengaturan default yang sama dengan pengaturan Studio standar. Anda juga dapat memilih untuk menggunakan Pusat Identitas AWS Identity and Access Management (IAM). (penerus AWS Single Sign-On) untuk autentikasi (lihat Masuk ke Domain Amazon SageMaker Menggunakan IAM Identity Center).

Panduan Solusi

Mulai Anda Studio SageMaker Lingkungan dan buat yang baru Aliran data Wrangler. Anda dapat mengimpor kumpulan data Anda sendiri atau menggunakan contoh kumpulan data (Raksasa) seperti yang terlihat pada gambar berikut. Kedua node ini (the sumber node dan data type node) dapat diklik – saat Anda mengklik dua kali kedua node ini, Data Wrangler akan menampilkan tabel.

Dalam kasus kita, mari klik kanan pada Jenis Data ikon dan Tambahkan transformasi:

Sekarang Anda akan melihat visualisasi di atas setiap kolom. Harap tunggu beberapa saat agar bagan dimuat. Latensi bergantung pada ukuran kumpulan data (untuk kumpulan data Titanic, diperlukan waktu 1-2 detik dalam contoh default).

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Gulir ke bilah atas horizontal dengan mengarahkan kursor ke tooltip. Setelah bagan dimuat, Anda dapat melihat distribusi data, nilai tidak valid, dan nilai yang hilang. Outlier dan nilai yang hilang adalah karakteristik data yang salah, dan sangat penting untuk mengidentifikasinya karena dapat memengaruhi hasil Anda. Ini berarti bahwa karena data Anda berasal dari sampel yang tidak representatif, temuan Anda mungkin tidak dapat digeneralisasikan ke situasi di luar studi Anda. Klasifikasi nilai dapat dilihat pada grafik di bagian bawah dimana sah nilai diwakili dalam warna putih, tidak sah nilai dengan warna biru, dan hilang nilai dalam warna ungu. Anda juga dapat melihat di pencilan digambarkan oleh titik-titik biru di kiri atau kanan bagan.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Semua visualisasi datang dalam bentuk histogram. Untuk data non-kategori, kumpulan keranjang ditentukan untuk setiap nampan. Untuk data kategorikal, setiap nilai unik diperlakukan sebagai tempat sampah. Di atas histogram, ada bagan batang yang menunjukkan nilai yang tidak valid dan hilang. Kita dapat melihat rasio nilai yang valid untuk tipe Numeric, Categorical, Binary, Text, dan Datetime, serta rasio nilai yang hilang berdasarkan total null dan sel kosong dan, terakhir, rasio nilai yang tidak valid. Mari kita lihat beberapa contoh untuk memahami bagaimana Anda dapat melihatnya menggunakan Sampel Titanic Dataset yang dimuat sebelumnya oleh Data Wrangler.

Contoh 1 – Kita dapat melihat 20% nilai yang hilang untuk UMUR fitur/kolom. Sangat penting untuk menangani data yang hilang di bidang penelitian/ML terkait data, baik dengan menghapusnya atau memasukkannya (menangani nilai yang hilang dengan beberapa perkiraan).

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Anda dapat memproses nilai yang hilang menggunakan Tangani nilai yang hilang kelompok transformasi. Menggunakan Hitung hilang transform untuk menghasilkan nilai yang diperhitungkan di mana nilai yang hilang ditemukan di kolom input. Konfigurasi tergantung pada tipe data Anda.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dalam contoh ini, the UMUR kolom memiliki tipe data numerik. Untuk strategi imputasi, kita dapat memilih untuk imputasi berarti atau itu median perkiraan atas nilai-nilai yang ada dalam kumpulan data Anda.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang kita telah menambahkan transformasi, kita dapat melihat bahwa UMUR kolom tidak lagi memiliki nilai yang hilang.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Contoh 2 – Kita dapat melihat 27% nilai tidak valid untuk TIKET fitur/kolom yang merupakan STRING Tipe. Data yang tidak valid dapat menghasilkan estimasi yang bias, yang dapat mengurangi akurasi model dan menghasilkan kesimpulan yang salah. Mari kita jelajahi beberapa transformasi yang dapat kita manfaatkan untuk menangani data yang tidak valid di TIKET kolom.

Melihat tangkapan layar, kami melihat bahwa beberapa input ditulis dalam format yang berisi huruf sebelum angka "PC 17318” dan lainnya hanyalah angka seperti “11769".

Kita dapat memilih untuk menerapkan transformasi untuk mencari dan mengedit pola tertentu dalam string seperti “komputer” dan menggantinya. Selanjutnya, kita bisa melemparkan milik kita tali kolom ke tipe baru seperti Panjang untuk kemudahan penggunaan.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Ini masih menyisakan 19% nilai yang hilang pada TIKET fitur. Mirip dengan contoh 1, kita sekarang dapat menghitung nilai yang hilang menggunakan median rata-rata atau perkiraan. Fitur TIKET seharusnya tidak lagi memiliki nilai yang tidak valid atau hilang seperti gambar di bawah ini.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Untuk memastikan bahwa Anda tidak dikenakan biaya setelah mengikuti tutorial ini, pastikan bahwa Anda matikan aplikasi Data Wrangler.

Kesimpulan  

Dalam posting ini, kami menyajikan yang baru Wrangler Data Amazon Sagemaker widget yang akan membantu menghapus angkat berat yang tidak dapat dibedakan untuk pengguna akhir selama persiapan data dengan visualisasi yang muncul secara otomatis dan wawasan pembuatan profil data untuk setiap fitur. Widget ini memudahkan untuk memvisualisasikan data (misalnya, histogram kategoris/non-kategorikal), mendeteksi masalah kualitas data (misalnya, nilai yang hilang dan nilai yang tidak valid), dan memunculkan wawasan data (misalnya, outlier dan item N teratas).

Anda dapat mulai menggunakan kemampuan ini hari ini di semua wilayah tempat SageMaker Studio tersedia. Cobalah, dan beri tahu kami pendapat Anda. Kami selalu menantikan umpan balik Anda, baik melalui kontak dukungan AWS biasa, atau di Forum AWS untuk Pembuat Sage.


Tentang Penulis

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Isya Dua adalah Arsitek Solusi Senior yang berbasis di San Francisco Bay Area. Dia membantu pelanggan AWS Enterprise tumbuh dengan memahami tujuan dan tantangan mereka, dan memandu mereka tentang bagaimana mereka dapat merancang aplikasi mereka dengan cara cloud-native sambil memastikan mereka tangguh dan dapat diskalakan. Dia sangat tertarik dengan teknologi pembelajaran mesin dan kelestarian lingkungan.

Memperkenalkan visualisasi tertanam baru dari Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Parth Patel adalah Arsitek Solusi di AWS di San Francisco Bay Area. Parth memandu pelanggan untuk mempercepat perjalanan mereka ke cloud dan membantu mereka mengadopsi AWS Cloud dengan sukses. Dia berfokus pada ML dan modernisasi aplikasi.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS