Deteksi Pola Dalam Data Teks Dengan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Dalam posting ini, kami memperkenalkan analisis baru di Kualitas Data dan Laporan Wawasan of Pengatur Data Amazon SageMaker. Analisis ini membantu Anda dalam memvalidasi fitur tekstual untuk kebenaran dan mengungkap baris yang tidak valid untuk diperbaiki atau dihilangkan.

Data Wrangler mengurangi waktu yang diperlukan untuk mengumpulkan dan menyiapkan data untuk pembelajaran mesin (ML) dari minggu ke menit. Anda dapat menyederhanakan proses persiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja persiapan data, termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi, dari satu antarmuka visual.

Ikhtisar solusi

Pra-pemrosesan data sering kali melibatkan pembersihan data tekstual seperti alamat email, nomor telepon, dan nama produk. Data ini dapat memiliki batasan integritas yang mendasari yang dapat dijelaskan oleh ekspresi reguler. Misalnya, agar dianggap valid, nomor telepon lokal mungkin perlu mengikuti pola seperti [1-9][0-9]{2}-[0-9]{4}, yang akan cocok dengan satu digit bukan nol, diikuti oleh dua digit lagi, diikuti oleh tanda hubung, diikuti oleh empat digit lagi.

Skenario umum yang mengakibatkan data tidak valid dapat mencakup entri manusia yang tidak konsisten, misalnya nomor telepon dalam berbagai format (5551234 vs. 555 1234 vs. 555-1234) atau data yang tidak diharapkan, seperti 0, 911, atau 411. Untuk pusat panggilan pelanggan, penting untuk menghilangkan angka seperti 0, 911, atau 411, dan memvalidasi (dan berpotensi benar) entri seperti 5551234 atau 555 1234.

Sayangnya, meskipun ada kendala tekstual, mereka mungkin tidak diberikan data. Oleh karena itu, seorang ilmuwan data yang menyiapkan kumpulan data harus secara manual mengungkap kendala dengan melihat data. Ini bisa membosankan, rawan kesalahan, dan memakan waktu.

Pembelajaran pola secara otomatis menganalisis data Anda dan memunculkan batasan tekstual yang mungkin berlaku untuk set data Anda. Misalnya dengan nomor telepon, pembelajaran pola dapat menganalisis data dan mengidentifikasi bahwa sebagian besar nomor telepon mengikuti batasan tekstual. [1-9][0-9]{2}-[0-9][4]. Itu juga dapat mengingatkan Anda bahwa ada contoh data yang tidak valid sehingga Anda dapat mengecualikan atau memperbaikinya.

Di bagian berikut, kami mendemonstrasikan cara menggunakan pembelajaran pola di Data Wrangler menggunakan kumpulan data fiksi kategori produk dan kode SKU (unit penyimpanan stok).

Dataset ini berisi fitur yang menjelaskan produk menurut perusahaan, merek, dan konsumsi energi. Khususnya, itu termasuk fitur SKU yang diformat dengan buruk. Semua data dalam kumpulan data ini adalah fiktif dan dibuat secara acak menggunakan nama merek dan nama alat secara acak.

Prasyarat

Sebelum Anda mulai menggunakan Data Wrangler, Download kumpulan data sampel dan unggah ke lokasi di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Untuk petunjuk, lihat Mengunggah objek.

Impor kumpulan data Anda

Untuk mengimpor set data Anda, selesaikan langkah-langkah berikut:

Di Data Wrangler, pilih Impor & Jelajahi Data untuk ML.
Pilih impor.
Untuk Impor data, pilih Amazon S3.
Temukan file di Amazon S3 dan pilih impor.

Setelah mengimpor, kita dapat menavigasi ke aliran data.

Dapatkan wawasan data

Pada langkah ini, kami membuat laporan wawasan data yang mencakup informasi tentang kualitas data. Untuk informasi lebih lanjut, lihat Dapatkan Wawasan Tentang Data dan Kualitas Data. Selesaikan langkah-langkah berikut:

pada Aliran data tab, pilih tanda plus di sebelah Tipe data.
Pilih Dapatkan wawasan data.
Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
Untuk postingan ini, tinggalkan Kolom sasaran dan Jenis masalah kosong.Jika Anda berencana untuk menggunakan kumpulan data Anda untuk tugas regresi atau klasifikasi dengan fitur target, Anda dapat memilih opsi tersebut dan laporan akan menyertakan analisis tentang bagaimana fitur masukan Anda terkait dengan target Anda. Misalnya, dapat menghasilkan laporan kebocoran target. Untuk informasi lebih lanjut, lihat Kolom sasaran.
Pilih membuat.

Kami sekarang memiliki Kualitas Data dan Laporan Wawasan Data. Jika kita gulir ke bawah ke SKU Di bagian ini, kita dapat melihat contoh pembelajaran pola yang menggambarkan SKU. Fitur ini tampaknya memiliki beberapa data yang tidak valid, dan diperlukan perbaikan yang dapat ditindaklanjuti.

Sebelum kita membersihkan fitur SKU, yuk scroll ke atas ke Merek bagian untuk melihat beberapa wawasan lainnya. Di sini kita melihat dua pola telah terungkap, menunjukkan bahwa sebagian besar nama merek adalah kata-kata tunggal yang terdiri dari karakter kata atau karakter alfabet. SEBUAH karakter kata adalah garis bawah atau karakter yang mungkin muncul dalam kata dalam bahasa apa pun. Misalnya, string Hello_world dan écoute keduanya terdiri dari karakter kata: H dan é.

Untuk posting ini, kami tidak membersihkan fitur ini.

Lihat wawasan pembelajaran pola

Mari kembali membersihkan SKU dan memperbesar pola dan pesan peringatan.

Seperti yang ditunjukkan pada tangkapan layar berikut, pembelajaran pola memunculkan pola akurasi tinggi yang cocok dengan 97.78% data. Ini juga menampilkan beberapa contoh yang cocok dengan pola serta contoh yang tidak cocok dengan pola. Dalam ketidakcocokan, kami melihat beberapa SKU yang tidak valid.

Selain pola yang muncul, peringatan mungkin muncul yang menunjukkan tindakan potensial untuk membersihkan data jika ada pola akurasi tinggi serta beberapa data yang tidak sesuai dengan pola.

Kami dapat menghilangkan data yang tidak valid. Jika kita memilih (klik kanan) pada ekspresi reguler, kita dapat menyalin ekspresi [A-Z]{3}-[0-9]{4,5}.

Hapus data yang tidak valid

Mari buat transformasi untuk menghilangkan data yang tidak sesuai yang tidak cocok dengan pola ini.

pada Aliran data tab, pilih tanda plus di sebelah Tipe data.
Pilih Tambahkan transformasi.
Pilih Tambahkan langkah.
Pencarian untuk regex Dan pilihlah Cari dan edit.
Untuk Mengubah, pilih Ubah yang tidak cocok menjadi hilang.
Untuk Kolom masukan, pilih SKU.
Untuk pola, masukkan ekspresi reguler kami.
Pilih Preview, Lalu pilih Add.

Sekarang data asing telah dihapus dari fitur.
Untuk menghapus baris, tambahkan langkah Menangani hilang dan pilih transformasinya Jatuh hilang.
Pilih SKU sebagai kolom masukan.

Kami kembali ke aliran data kami dengan menghapus data yang salah.

Kesimpulan

Dalam posting ini, kami menunjukkan cara menggunakan fitur pembelajaran pola dalam wawasan data untuk menemukan data tekstual yang tidak valid dalam kumpulan data Anda, serta cara memperbaiki atau menghilangkan data tersebut.

Sekarang setelah Anda membersihkan kolom tekstual, Anda dapat memvisualisasikan kumpulan data Anda menggunakan analisis atau kamu bisa melamar transformasi bawaan untuk memproses data Anda lebih lanjut. Saat Anda puas dengan data Anda, Anda bisa melatih model dengan Autopilot Amazon SageMaker, atau ekspor data Anda ke sumber data seperti Amazon S3.

Kami ingin mengucapkan terima kasih kepada Nikita Ivkin atas ulasannya yang bijaksana.

Tentang penulis

Vishaal Kapoor adalah Ilmuwan Terapan Senior dengan AWS AI. Dia bersemangat membantu pelanggan memahami data mereka di Data Wrangler. Di waktu luangnya, ia bersepeda gunung, bermain snowboard, dan menghabiskan waktu bersama keluarganya.

Zohar Karnan adalah Ilmuwan Utama di Amazon AI. Minat penelitiannya adalah di bidang algoritma pembelajaran mesin skala besar dan online. Dia mengembangkan algoritme pembelajaran mesin yang dapat diskalakan tanpa batas untuk Amazon SageMaker.

Ajai Sharma adalah Manajer Produk Utama untuk Amazon SageMaker di mana dia berfokus pada Data Wrangler, alat persiapan data visual untuk ilmuwan data. Sebelum bergabung dengan AWS, Ajai adalah Pakar Ilmu Data di McKinsey and Company, di mana dia memimpin keterlibatan yang berfokus pada ML untuk perusahaan keuangan dan asuransi terkemuka di seluruh dunia. Ajai sangat menyukai ilmu data dan suka menjelajahi algoritme dan teknik pembelajaran mesin terbaru.

Derek Baron adalah manajer pengembangan perangkat lunak untuk Amazon SageMaker Data Wrangler

Stempel Waktu: Oktober 24, 2022Oktober 24, 2022

Stempel Waktu: September 15, 2022

Deteksi pola dalam data teks dengan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Prasyarat

Impor kumpulan data Anda

Dapatkan wawasan data

Lihat wawasan pembelajaran pola

Hapus data yang tidak valid

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

AWS Panorama sekarang mendukung NVIDIA JetPack SDK 4.6.2

Memulai penerapan model waktu nyata di Amazon SageMaker

Basis Pengetahuan di Amazon Bedrock kini menyederhanakan pengajuan pertanyaan pada satu dokumen | Layanan Web Amazon

Prakiraan mingguan sekarang dapat dimulai pada hari Minggu dengan Amazon Forecast

Sederhanakan pembelajaran berkelanjutan model kustom Amazon Comprehend menggunakan roda gila Comprehend

Cari proyek Jira Anda secara cerdas dengan konektor cloud Amazon Kendra Jira

Instans DL2q Amazon EC2 untuk inferensi AI berkinerja tinggi dan hemat biaya kini tersedia secara umum | Layanan Web Amazon

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun