Mereparasi Parameter Terlatih Pada Dataset Besar Menggunakan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Pengatur Data Amazon SageMaker membantu Anda memahami, menggabungkan, mengubah, dan menyiapkan data untuk machine learning (ML) dari satu antarmuka visual. Ini berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun.

Praktisi ilmu data menghasilkan, mengamati, dan memproses data untuk memecahkan masalah bisnis di mana mereka perlu mengubah dan mengekstrak fitur dari kumpulan data. Transformasi seperti pengodean ordinal atau pengodean satu-panas pelajari pengodean pada kumpulan data Anda. Output yang disandikan ini disebut sebagai parameter terlatih. Karena kumpulan data berubah dari waktu ke waktu, pengkodean ulang mungkin perlu dilakukan pada data yang sebelumnya tidak terlihat agar alur transformasi tetap relevan dengan data Anda.

Kami dengan senang hati mengumumkan fitur parameter terlatih reparasi, yang memungkinkan Anda untuk menggunakan parameter terlatih sebelumnya dan mereparasinya sesuai keinginan. Dalam posting ini, kami mendemonstrasikan cara menggunakan fitur ini.

Tinjauan fitur reparasi Data Wrangler

Kami mengilustrasikan cara kerja fitur ini dengan contoh berikut, sebelum kami menyelami secara spesifik fitur parameter yang dilatih reparasi.

Asumsikan kumpulan data pelanggan Anda memiliki fitur kategori untuk country direpresentasikan sebagai string seperti Australia dan Singapore. Algoritma ML membutuhkan input numerik; oleh karena itu, nilai kategoris ini harus dikodekan ke nilai numerik. Encoding data kategorikal adalah proses membuat representasi numerik untuk kategori. Misalnya, jika negara kategori Anda memiliki nilai Australia dan Singapore, Anda dapat menyandikan informasi ini ke dalam dua vektor: [1, 0] untuk mewakili Australia dan [0, 1] untuk mewakili Singapore. Transformasi yang digunakan di sini adalah pengkodean satu-panas dan keluaran baru yang dikodekan mencerminkan parameter yang dilatih.

Setelah melatih model, seiring waktu pelanggan Anda dapat meningkat dan Anda memiliki lebih banyak nilai berbeda dalam daftar negara. Kumpulan data baru dapat berisi kategori lain, India, yang bukan merupakan bagian dari kumpulan data asli, yang dapat memengaruhi akurasi model. Oleh karena itu, perlu melatih ulang model Anda dengan data baru yang telah dikumpulkan dari waktu ke waktu.

Untuk mengatasi masalah ini, Anda perlu me-refresh pengkodean untuk memasukkan kategori baru dan memperbarui representasi vektor sesuai dataset terbaru Anda. Dalam contoh kami, pengkodean harus mencerminkan kategori baru untuk country, Yang India. Kami biasanya menyebut proses menyegarkan pengodean ini sebagai operasi reparasi. Setelah Anda melakukan operasi reparasi, Anda mendapatkan pengkodean baru: Australia: [1, 0, 0], Singapore: [0, 1, 0], dan India: [0, 0, 1]. Memasang kembali pengkodean one-hot dan kemudian melatih ulang model pada set data baru menghasilkan prediksi dengan kualitas yang lebih baik.

Fitur parameter terlatih reparasi Data Wrangler berguna dalam kasus berikut:

Data baru ditambahkan ke kumpulan data – Pelatihan ulang model ML diperlukan saat kumpulan data diperkaya dengan data baru. Untuk mencapai hasil yang optimal, kita perlu mereparasi parameter terlatih pada dataset baru.
Pelatihan pada set data lengkap setelah melakukan rekayasa fitur pada data sampel – Untuk kumpulan data besar, sampel kumpulan data dipertimbangkan untuk mempelajari parameter terlatih, yang mungkin tidak mewakili keseluruhan kumpulan data Anda. Kita perlu mempelajari kembali parameter yang dilatih pada kumpulan data lengkap.

Berikut ini adalah beberapa transformasi Data Wrangler yang paling umum dilakukan pada kumpulan data yang mendapat manfaat dari opsi parameter terlatih refit:

Untuk informasi selengkapnya tentang transformasi di Data Wrangler, lihat Transformasi Data.

Dalam posting ini, kami menunjukkan cara memproses parameter terlatih ini pada kumpulan data menggunakan Data Wrangler. Anda dapat menggunakan alur Data Wrangler dalam tugas produksi untuk memproses ulang data Anda seiring pertumbuhan dan perubahannya.

Ikhtisar solusi

Untuk posting ini, kami mendemonstrasikan cara menggunakan fitur parameter terlatih reparasi Data Wrangler dengan dataset yang tersedia untuk umum di Kaggle: Data Perumahan AS dari Zillow, Properti Dijual di Amerika Serikat. Ini memiliki harga jual rumah di berbagai geo-distribusi rumah.

Diagram berikut mengilustrasikan arsitektur tingkat tinggi Data Wrangler menggunakan fitur parameter terlatih reparasi. Kami juga menunjukkan efek pada kualitas data tanpa parameter pelatihan reparasi dan mengkontraskan hasilnya di akhir.

Alur kerja meliputi langkah-langkah berikut:

Lakukan analisis data eksplorasi – Buat alur baru di Data Wrangler untuk memulai analisis data eksplorasi (EDA). Impor data bisnis untuk memahami, membersihkan, menggabungkan, mengubah, dan menyiapkan data Anda untuk pelatihan. Mengacu pada Jelajahi kemampuan Amazon SageMaker Data Wrangler dengan kumpulan data sampel untuk detail lebih lanjut tentang melakukan EDA dengan Data Wrangler.
Buat tugas pemrosesan data – Langkah ini mengekspor semua transformasi yang Anda buat pada kumpulan data sebagai file aliran yang disimpan di konfigurasi Layanan Penyimpanan Sederhana Amazon (Amazon S3) lokasi. Pekerjaan pemrosesan data dengan file aliran yang dihasilkan oleh Data Wrangler menerapkan transformasi dan parameter terlatih yang dipelajari pada kumpulan data Anda. Saat pekerjaan pemrosesan data selesai, file output diunggah ke lokasi Amazon S3 yang dikonfigurasi di node tujuan. Perhatikan bahwa opsi reparasi dimatikan secara default. Sebagai alternatif untuk menjalankan pekerjaan pemrosesan secara instan, Anda juga dapat menjadwalkan pekerjaan pemrosesan dalam beberapa klik menggunakan Data Wrangler – Buat Pekerjaan untuk dijalankan pada waktu tertentu.
Buat tugas pemrosesan data dengan fitur parameter terlatih reparasi – Pilih fitur parameter terlatih baru saat membuat tugas untuk menerapkan pembelajaran ulang parameter terlatih Anda pada kumpulan data lengkap atau yang diperkuat. Sesuai konfigurasi lokasi Amazon S3 untuk menyimpan file flow, tugas pemrosesan data membuat atau memperbarui file flow baru. Jika Anda mengonfigurasi lokasi Amazon S3 yang sama seperti di Langkah 2, tugas pemrosesan data akan memperbarui file alur yang dibuat di Langkah 2, yang dapat digunakan untuk menjaga agar alur Anda tetap relevan dengan data Anda. Setelah menyelesaikan pekerjaan pemrosesan, file output diunggah ke node tujuan yang dikonfigurasikan bucket S3. Anda dapat menggunakan alur yang diperbarui di seluruh kumpulan data untuk alur kerja produksi.

Prasyarat

Sebelum memulai, unggah set data ke bucket S3, lalu impor ke Data Wrangler. Untuk petunjuk, lihat Impor data dari Amazon S3.

Sekarang mari kita telusuri langkah-langkah yang disebutkan dalam diagram arsitektur.

Lakukan EDA di Data Wrangler

Untuk mencoba fitur parameter terlatih reparasi, atur analisis dan transformasi berikut di Data Wrangler. Di akhir penyiapan EDA, Data Wrangler membuat file aliran yang diambil dengan parameter terlatih dari kumpulan data.

Buat alur baru di Amazon SageMaker Data Wrangler untuk analisis data eksplorasi.
Impor data bisnis yang Anda unggah ke Amazon S3.
Anda dapat melihat pratinjau data dan opsi untuk memilih jenis file, pembatas, pengambilan sampel, dan sebagainya. Untuk contoh ini, kami menggunakan K . pertama opsi pengambilan sampel yang disediakan oleh Data Wrangler untuk mengimpor 50,000 rekaman pertama dari kumpulan data.
Pilih impor.